Többszörös lineáris regresszió

A Wikipédiából, a szabad enciklopédiából

A többszörös lineáris regresszió egy függő változó (Y) és kettő vagy több független változó (magyarázó változó) (X1, X2, ..., Xi) közötti kapcsolat leírására szolgáló statisztikai eljárásmód. Azonos kísérleti mintát (vizsgálati személyek csoportja, állatmodellek) leíró változókat a független változóknak a függő változóra vonatkozó prediktív képességét mutatja. Választ próbál adni arra, hogy a független változók egységnyi változása, a függő változó milyen mérvű megváltozását vonhatja maga után. A változók mögött meghúzódó rejtett tendenciák feltárása révén magyarázó modell/ek kialakítását teszi lehetővé. Már a módszer nevéből is kiderül az alkalmazására vonatkozó legfontosabb megszorítás: csak lineáris összefüggések kimutatására alkalmazható.

A változók típusa[szerkesztés | forrásszöveg szerkesztése]

  • Mind a függő, mind a független változók magas mérési szintűek (intervallumskála)
  • Szélsőséges esetben azonban a független változók lehetnek ordinális (attitűdskála) vagy nominális (dummy változó, például nem) mérési szintűek. Törekedjünk a magas mérési szintű változók alkalmazására.
  • Dummy változók lehetséges kódolása:
    • 0: kontroll csoport, 1: kísérleti csoport, vagy
    • 1: férfi, 2: nő
  • Számszerűsíthető változókkal dolgozzunk.
  • Változóink legyenek folytonosak.
  • A függő változóra a véletlen is hat, nemcsak a magyarázó változók.

Alapegyenlete[szerkesztés | forrásszöveg szerkesztése]

Y = β0 + β1X1 + β2X2 + β3X3+ … + βiXi + ε

  • Y: függő változó
  • X1, X2, X3, ..., Xi: független változók avagy magyarázó változók
  • i: a magyarázó változók száma
  • β0: (más jelöléssel α) konstans, állandó érték
    • Megadja a regressziós egyenes és a koordináta-rendszer függőleges (y) tengelyének metszéspontját.
  • β1, β2, β3, ..., βi: konstans regressziós együtthatók
    • Megadja a regressziós egyenes meredekségét.
    • Grafikusan jelzi, hogy a független változók egységnyi változása várhatóan milyen mértékben változtatja meg a függő változót.
  • ε: hibatényező, hibatag, random error
    • A véletlen szerepét a regressziós egyenletbe bevont ε vagy e vagy, h hibataggal jelöljük.
  • Illesztése: A legkisebb átlagos négyzetes távolság kiszámításán alapul.
  • Grafikus képe: lineáris összefüggés révén egy egyenes (ebből ered az elnevezés).

Feltevések[szerkesztés | forrásszöveg szerkesztése]

A lineáris regresszió csak akkor alkalmazható, ha az alábbi feltételek teljesülnek:

  • Függő és független változókra:
    • Lineárisak
    • A magyarázó változók egymástól nem függnek (nincs köztük multikollinearitás)
  • Hibatagokra:
    • Normál eloszlást mutatnak, ha sérül, a statisztikai teszteket csak körültekintően szabad alkalmazni.
    • Varianciája nem függ a modell változóiétól, és állandó értékű.
    • Nagyságuk független a modellbe bevont magyarázó változóktól.
    • Nem korrelálnak sem egymással, sem a magyarázó változókkal.

Ha a feltételek valamelyike nem teljesül, akkor a paraméterbecslés nem lesz megfelelő.

Elvi menete[szerkesztés | forrásszöveg szerkesztése]

1. Pontdiagramm vizsgálat

Mivel a módszerrel történő modellépítés lineáris függvény segítségével történik, ezért első lépésben elengedhetetlen megvizsgálni, vajon változóink közt valóban lineáris-e a kapcsolat. Ha nem az, a regressziószámítás más függvény alapján történő módszerét, például logisztikus regressziószámítást kell alkalmazni. Derékszögű koordináta-rendszerben, a függő változót a függőleges (y, ordináta), míg a független változót a vízszintes (abszcissza, x) tengelyen ábrázolva görbét rajzolunk, ha ez elnyújtott ellipszishez hasonló, akkor a változóink között feltehetően lineáris összefüggés van.

2. Alapegyenlet

  • Lásd feljebb
  • A modell felállítása az adott egyenlet alapján történik.
  • A modell felállítása az adott egyenlet alapján történik.

3. Paraméterbecslés

  • A legkisebb négyzetek módszerével lefolytatott közelítés.
  • Gauss német matematikus: 1777-1855 alkotta meg.
  • A legkisebb négyzetek módszere: minimalizálja a tényleges és a becsült paraméterrel illesztett modellek négyzetes eltérését, azaz az eltérések négyzetösszegét a lehető legkisebbre redukálja, ezzel minimalizálja a becslésből eredő torzításokat.

4. Standardizált regressziós együtthatók

  • A standardizálás eredményeképp létrejövő β együtthatók átlaga 0, míg varianciája: 1.
  • Ezek adják a regressziós egyenes meredekségét.

5. Lineáris kapcsolat

  • A módszer nullhipotézise szerint a függő és a független változók közt nincs lineáris kapcsolat.
  • Ellenőrzése a kétoldali t-próba módszerével történik.

6. Kapcsolaterősség

  • Determinációs együttható: r2, értéke 0 és 1 között lehet.
  • Megmutatja, mekkora hányadban magyarázzák a független változók a függő változó teljes eltérés négyzetösszegét.
  • Ha a meredekség (lineáris együttható standard értéke: β) 0, akkor a determinációs együttható értéke is 0, tehát a vizsgált változók közt nem mutatható ki korreláció.
  • A determinációs együttható akkor maximális, ha minden kapott függvényérték a regressziós egyenesen van. Ez az illeszkedés nagyon ritka, általában mindig vannak kilógó értékek. A regressziós egyenes illesztése ezért mindig úgy történik, hogy az egyenes mindkét oldalán nagyjából azonos számban legyenek kilógó értékek. (best fit regression line = legjobban illeszkedő egyenes)
  • A 0 és 1 közé eső determinációs együttható értékei mutatják, a változók közötti kapcsolat erősségét, a függő változó független változók általi bejósolhatóságának milyenségét, egyszóval a regressziós függvény értékekre való illesztésének helyességét.
  • Az r2 szignifikanciáját az F-próbával ellenőrizhetjük, ami a t-próba általánosításának fogható fel.

7. Predikciós pontosság

  • A becslés során fellépő standard hiba kiszámítása.
  • A valódi és a becsült értékek közti eltérés detektálása.

8. Reziduumok (hibatagok) szerepe

  • A regresszióelemzés elvégezhetőségét korlátozó kikötések részben a hibatagokra vonatkoznak (Lásd előrébb).
    • Multikollinearitás kizárása: két független változó közti korrelációs együttható nem haladhatja meg a 0,7-es, míg a determinációs együttható: 0,5-ös értéket. Ha ilyen mégis előfordul, ki kell hagyni a modellépítésből, mert torzíthatja az eredményeket. Ha mégis benne hagyjuk a modellben, nem leszünk képesek tisztán elkülöníteni a magyarázó változók egyenkénti hatását. Ilyen természetű változónak tekinthető adott modellbe bevont testsúly, testmagasság és életkor.
    • A hibatag várhatóan 0, tehát, az olyan változók, amiket nem építünk be a modellbe, egymást semlegesítve nem hatnak a hibatagra.
    • Hibatag varianciájának állandósága: homoszkedaszticitási feltétel.
    • A hibatagok nem korrelálhatnak egymással, ha mégis, rossz függvénnyel számoltunk, nem lineáris az összefüggés.

SPSS-ben történő futtatása[szerkesztés | forrásszöveg szerkesztése]

  1. Analyze/Regression/Linear menüpont
  2. Dependent: függő változó bevitele (kizárólag magas mérési szintű)
  3. Independent (s): független változók bevitele (Törekedjünk a magas mérési szintűre!)
  4. Method:
  • Enter:

Az összes független változót bevonja a modellbe, és ezek együttes hatását vizsgálja.

  • Forward selection:

A legnagyobb standard regressziós koefficienssel bíró, legerősebb hatású változót építi be először, mielőtt a következőt beépítené, F-teszttel megvizsgálja a program, melyik az a következő változó, mely szignifikánsan növelhetné az R2–értékét, tehát a modell magyarázó erejét. Addig építi be az újabb változókat, amíg tovább már nem növelhető a megmagyarázott hányad. Csak a szignifikáns változókat építi be a modellbe. Az újabb és újabb változók egymás elől „happolják el” a magyarázó erőt.

  • Backward elimination:

Első körben minden változót beépít a modellbe, majd azokat eliminálja, melyek kivételével nem csökken szignifikánsan a modell magyarázó ereje. A nem szignifikáns hatásúakat kizárja a modellből.

  • Stepwise regression (selection)

Az előző két módszert kombinálja. Elsőként a legnagyobb standard regressziós együtthatóval bíró változót viszi be a modellbe, majd fokozatosan a többi kisebb erejűt, miután bevitt egy változót, megvizsgálja, mely változó vehető ki az alakulóban lévő modellből úgy, hogy az R2 értékét szignifikánsan csökkentené a kivétel. A legjobb magyarázó változók kiválasztását célzó automatikus modellépítési módszer. Használata javasolt epidemiológiai vizsgálatokra és feltáró vizsgálatokra, adott változókra építhető alternatív hipotézisek kialakítására.

  • Mielőtt Ok-t nyomnánk, ellenőrizzük a Statistics gomb benyomásával a kiegészítő beállításokat:
    • Estimates
    • Confidence intervals
    • Model fit
    • Descriptives bejelölve, Continue, majd OK.

SPSS output[szerkesztés | forrásszöveg szerkesztése]

Correlations[szerkesztés | forrásszöveg szerkesztése]

Korrelációs mátrix, a Descriptives beállítása miatt számolta. Láthatjuk a függő és a független változók közötti kapcsolat meglétét, vagy hiányát, a kapcsolat erősségét. A multikollinearitást is ki tudjuk zárni a független változók egymás közötti korrelációs értékeinek vizsgálatával.

Model Summary[szerkesztés | forrásszöveg szerkesztése]

Többváltozós regressziós modell összefoglalását bemutató táblázat.

  • R2 A kapcsolat erősségét jelzi arra vonatkozóan, hogy a független változók, mekkora mértékben jelzik előre a függő változót. Ez az úgynevezett többszörös determinációs együttható, mely a modell magyarázóerejét mutatja. Ha ezt az értéket százzal szorozzuk, megkapjuk azt a százalékot, hogy hány százalékban magyarázzák a független változók a függő változót.
  • Adjusted R Square: Magyarázóerő nagysága. Azt mutatja, hogy a független változók együttesen a függő változó varianciájának hány százalékát magyarázzák.

Korrigált R2: A független változók szám, és a minta nagysága segítségével módosított R2 érték, az alapsokaságra vonatkoztat. Annál jobba modellünk, minél közelebb van egymáshoz a korrigált és a korrigálatlan R2 érték.

ANOVA[szerkesztés | forrásszöveg szerkesztése]

Többváltozós regressziós modellre számított ANOVA táblázata. Az F-próba segítségével alátámasztható vagy megdönthető a nullhipotézis, mely szerint R2 nulla, tehát a változók közt nincs kapcsolat. p <0, 05 esetén elvetjük a nullhipotézist, tehát a függő és a független változók közt kapcsolat van. Ha a nullhipotézis igaz, és a változók közt valóban nincs kapcsolat, akkor ez grafikon formájában az x- tengellyel párhuzamos egyenes képében manifesztálódik, mely 0 meredekségű.

Coefficients[szerkesztés | forrásszöveg szerkesztése]

Regressziós együtthatók becslését bemutató táblázat. A t-próba szignifikancia-szintjével kell kezdeni, ugyancsak p <0, 05 esetén a szignifikáns változók bekerülhetnek a modellbe. A változóknak egy irányba kell mutatniuk, különben műtermékekhez juthatunk. Elvégzése előtt ellenőrizzük például, hogy skáláinkra igaz-e ez az egy irányba mutató feltétel.

  • Constant: a regressziós egyenletbe kerülő állandó, míg a változó neve melletti szám, maga a regressziós együttható, amely bekerül az egyenletbe (Lásd feljebb). Standardizált regressziós koefficiens Beta lehetővé teszi a regressziós koefficiensek korrekt összehasoníthatóságát. Az a független változó gyakorolja a legnagyobb hatást a függő változóra, melyre ez az érték a legmagasabb.

Kapcsolat más statisztikai próbákkal[szerkesztés | forrásszöveg szerkesztése]

Korrelációszámítás[szerkesztés | forrásszöveg szerkesztése]

  • A korreláció számítása csak arra ad választ, hogy a függő és a független változók közt van-e kapcsolat, ellentétben a regressziószámítással, nem ad adatokat a kapcsolat természetére, finomabb jellemzésére vonatkozóan.
  • Ha a korrelációs koefficiens két változó közt szignifikáns, akkor a lineáris regresszió is szignifikáns lesz.
  • Korrelációszámításnál mindegy, melyik változónk a függő, illetve a független, ellenben lineáris regressziószámításnál ez nem felcserélhető.

Többszempontos ANOVA[szerkesztés | forrásszöveg szerkesztése]

  • Logikai párhuzam vonható a kétfajta magyarázó modell felállítását célzó műveletekre.
  • Mindkettő több független változónak egy adott függő változóra gyakorolt hatását, a függő változó független változók általi megmagyarázható százalékát próbálja prediktálni.
  • Legfőbb eltérés az alkalmazott változók mérési szintjében van.

Gyakorlati alkalmazások[szerkesztés | forrásszöveg szerkesztése]

Pszichológiai jelenségek hátterében sokszor lineáris kapcsolat áll. A munkára való motiváltság és a teljesítmény kapcsolata tipikusan ezek közé tartozik, de ide sorolható az autoriter attitűd és a konvencionalitás vagy akár az emocionális kontroll, frusztrációtűrés és a nyílt düh kifejezési mód összefüggése. A lineáris regressziószámítás az egyik leggyakoribb és leginkább előretörőben lévő statisztikai eljárás, egyes orvosi szaklapok, bizonyos kísérleti protokollból származó adatok esetében például ehhez kötik az egyes cikkek közlését. A világ eseményeit multikauzális okság köti egybe, ebből kifolyólag a társadalomtudományok egyike sem nélkülözheti eredményeinek kiértékeléséhez ezt az adatelemzési módszert. A gyakorlati életben a politika és a piackutatás egyaránt alkalmazza.

Források[szerkesztés | forrásszöveg szerkesztése]