Lineáris regresszió

A Wikipédiából, a szabad enciklopédiából
Lineáris egyenes illesztése ponthalmazra

A statisztika eszköztárában a lineáris regresszió egy olyan paraméteres regressziós modell, mely feltételezi a magyarázó- (X) és a magyarázott (y) változó közti (paramétereiben) lineáris kapcsolatot. Ez azt jelenti, hogy lineáris regresszió becslése során a mintavételi adatok pontfelhőjére igyekszünk egyenest[1] illeszteni.

A lineáris kapcsolat a következőképpen fejezhető ki:

y=\beta_0+ \beta_1x_1+\beta_2x_2+\cdots+\beta_k x_k+u=X\beta+u,

ahol y,u\in\mathbb{R}^{n\times 1},  \beta\in \mathbb{R}^{(1+k)\times 1} vektorok, X\in \mathbb{R}^{n\times (1+k)} mátrix, x_k\in\mathbb{R}^{n\times 1} vektor minden k=1,\ldots,k-ra, 1+k a magyarázóváltozók száma (konstanssal együtt), n a mintanagyság.

A lineáris regresszió becslése során a \beta paramétervektort becsüljük a rendelkezésre álló mintából úgy, hogy az pl. az átlagos négyzetes hibát minimalizálja. A legegyszerűbb, és legáltalánosabb becslési módszer a legkisebb négyzetek módszere, azonban ez utóbbi nem tévesztendő össze a lineáris regresszió fogalmával, mivel lineáris regressziós egyenest más becslési módszerekkel is becsülhetjük, és a legkisebb négyzetek módszere nem csak lineáris regressziós modellek becslésére alkalmas.

A lineáris regressziós elemzést és becslést mindig elvégezhetjük, azonban az eredmények értelmezése a valós populációs összefüggésekre tett különböző feltételezések megtételéhez kötött.

A becsült lineáris regressziós egyenes többféleképpen értelmezhető:

  • Értelmezhető deskriptív módon úgy, hogy ez az a lineáris függvény, ami a legjobban illeszkedik az adott ponthalmazra. Amennyiben az egyenest valóban illeszteni tudjuk, erre az értelmezésre mindig lehetőségünk van egyéb feltételezésektől függetlenül.
  • Az előző ponthoz kapcsolódóan lehetőségünk van arra, hogy megbecsüljük, vagy előrejelezzük a magyarázott változó olyan értékét, amelyhez a mintában nem tartozik magyarázó változó érték. Ebben az esetben a lineáris regressziós egyenes adja a magyarázott változó legjobb lineáris közelítését a magyarázó változó adott értéke mellett.
  • Értelmezhetjük úgy, hogy a regressziós egyenes egy átfogó képet ad arról, hogy y várhatóan hogyan változik X változásának hatására. Ez esetben a következőt mondhatjuk a lineáris regressziós becslés és a feltételes átlagfüggvény  E[y|X=X_0]=m(X_0,\beta) kapcsolatáról:
    • Amennyiben a feltételes átlagfüggvény, m(X,\beta) lineáris β-ban, akkor a becsült lineáris regressziós függvény egybeesik azzal, tehát az eredmények várható érték alapú értelmezése korrekt.
    • Amennyiben a feltételes átlagfüggvény nem lineáris, a becsült lineáris regressziós függvény a legjobb lineáris közelítése annak. Ez esetben ugyan a várható érték alapú értelmezés nem teljes mértékben korrekt, mégis hasznos, értelmezhető információval szolgálhatunk a becslés eredményeit vizsgálva és körültekintően értelmezve.

A magyarázóváltozók száma alapján megkülönböztetünk egyszerű vagy többszörös lineáris regressziót, az adatok X mátrixa pedig lehet véletlen vagy rögzített.

Alapfogalmak és egyszerű lineáris regresszió[szerkesztés | forrásszöveg szerkesztése]

A regressziós modellekben

  •  y -t magyarázandó, függő, vagy eredményválozónak,
  •  X -et a magyarázó- vagy független változónak,
  •  u -t (gyakran \varepsilon-t) hibatagnak, maradékváltozónak,
  •  \beta -t paraméternek, koefficiensnek

nevezzük.

Az egyszerű lineáris regresszió modelljében y-t egy X változóval, egy konstanssal és a hibataggal magyarázzuk. Amennyiben rendelkezésünkre áll egy n elemű minta (y_i,x_i)\ i=1,\ldots, n, a regressziós modellt, amit becsülni kívánunk, a következőképpen írhatjuk:

y_i = \alpha  + \beta x_i + u_i minden i=1,\ldots, n-re.

A modell becsült paraméterei \hat{\alpha} és \hat{\beta} (lényegében a legtöbb becslési eljárás eredményeképp) rendre a regressziós egyenes tengelymetszetét és meredekségét adják. Belátható, hogy az egyszerű lineáris regressziós modellben a becsült paraméterek értéke a következőképpen számítható:

  • \hat{\alpha}=\bar{y}-\bar{X}\hat{\beta},
  • \hat{\beta}=\frac{\widehat{\rm Cov}(y,X)}{\widehat{\rm Var}(X)},

amely egyenletekben \bar{y}\equiv n^{-1}\sum_{i=1}^ny_i a függő változó mintaátlaga, \bar{X}\equiv  n^{-1}\sum_{i=1}^nx_i a független változó mintaátlaga, y\equiv (y_1,\ldots,y_n)' vektor és X\equiv (x_1,\ldots,x_n)' vektor (' a transzponálást jelöli).

E formulákból a lineáris regresszió intuitív értelmezése látható: 1.) a tengelymetszet \hat{\alpha} a független változó átlagát adja, amennyiben a magyarázó változó értéke (átlagban vagy egyenként) nulla, 2.) a meredekség a két változó közti kovarianciát, "együttmozgást" mutatja (megfelelő normalizálás mellett).

Megjegyzendő, hogy a konstans tag elhagyható a modellből, ez esetben azonban a becsült regressziós egyenest "átkényszerítjük" az origón. Ez általában rosszabb illeszkedést idéz elő.


Modellfeltevések[szerkesztés | forrásszöveg szerkesztése]

Többszörös lineáris regresszió[szerkesztés | forrásszöveg szerkesztése]

A fent tárgyalt egyszerű lineáris regressziós modellt általánosíthatjuk úgy, hogy egy helyett k magyarázóváltozót vonunk be a modellbe, és ezek hatását becsüljük y-ra. Ez lehetőséget ad arra is, hogy a magyarázóváltozókban lévő nemlinearitást beépítsük a modellbe.

Legyen n a mintanagyság, k a magyarázóváltozók száma. Egy (y_i,x_{i1},x_{i2},\ldots,x_{ik})_{i=1,\ldots,n} (n elemszámú) adott minta esetén a többszörös lineáris regresszió a következőképpen írható:


 y_i = \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + u_i
 = x'_i\beta + u_i,
 \qquad i = 1, \ldots, n,

ahol ' a transzponálást jelöli, és x'\beta a két vektor közti skalárszorzatot jelenti.

A fenti egyenleteket felírhatjuk mátrix alakban is, ami megkönnyíti a modell algebrai kezelését. Ehhez legyen


 y \equiv \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}, \quad
 X \equiv \begin{pmatrix} x'_1 \\ x'_2 \\ \vdots \\ x'_n \end{pmatrix}
 = \begin{pmatrix} x_{11} & \cdots & x_{1k} \\
 x_{21} & \cdots & x_{2k} \\
 \vdots & \ddots & \vdots \\
 x_{n1} & \cdots & x_{nk}
 \end{pmatrix}, \quad 
 \beta \equiv \begin{pmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{pmatrix}, \quad
 u \equiv \begin{pmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{pmatrix}.

Ekkor a többszörös lineáris regressziós modell a következő:


y=X\beta + u

Ebben az általános modellben a regressziós "egyenes" helyett egy k dimenziós hipersíkot szeretnénk találni egy k+1 dimenziós térben. Megjegyzendő, hogy x_1 lehet n darab 1-esből álló vektor (1,1,\ldots,1)' is. Így a fenti modell magában foglalja a konstans együtthatót tartalmazó modellt.

A többszörös lineáris regressziós modell megengedi, hogy a magyarázóváltozók korreláltak legyenek egymással. Így viszont az l-edik változó hat önmagában y-ra, és esetlegesen j-n keresztül is. A becsült többszörös lineáris regressziós modell tulajdonsága, hogy \hat{\beta}_j paramétert a j-edik magyarázóváltozó y-ra vonatkozó parciális hatásaként kell értelmezni. Ez a parciális értelmezés azt jelenti, hogy a j-edik paraméter a többi k-1 változó y-ra hatását kiküszöbölve mutatja a j-edik magyarázóváltozó hatását. Ezt mutatja a következő összefüggés:


\hat{\beta}_j=\frac{\widehat{\rm Cov}(y,\tilde{x}_j)}{\widehat{\rm Var}(\tilde{x}_j)},

ahol \tilde{x}_j a j-edik magyarázóváltozó többi k-1 magyarázóváltozóra regresszált regresszióból származó becsült maradéktag (reziduum).[2] Az egyszerű lineáris regresszióban érdemi magyarázóváltozó x-en kívül nem szerepel, így látható a kapcsolat a két modell között.[3]

Nemlinearitások kezelése és értelmezése[szerkesztés | forrásszöveg szerkesztése]

A magyarázóváltozó kvadratikus transzformálásával elért modell

A lineáris regressziós modell csak a paramétereiben kell, hogy lineáris legyen. Így, amennyiben nemlineáris kapcsolatot feltételezünk egy (vagy több) magyarázóváltozó és a magyarázott változó között, úgy lehetséges a magyarázóváltozókat nemlineárisan transzformálni (pl. négyzetre emelés, logaritmálás), majd a transzformált magyarázóváltozót is beépíteni a modellbe. Például ha az életkor (K) és a jövedelem (J) kapcsolatáról azt gondoljuk, hogy fordított U formát követ, akkor ezt a nemlinearitást a következő modellel ragadhatjuk meg:


J_i=\alpha + \beta_1 K_i+\beta_2 K_i^2+u_i, \qquad i = 1, \ldots, n.

A becslési eljárások megengedik, hogy \beta_2 negatív értéket vegyen fel, így a becslés során megkaphatjuk a fordított U formát.

Amennyiben azt gondoljuk, hogy a kor növekedésével a jövedelem exponenciálisan növekszik, vagyis a modell a következő:


J_i=\exp(\alpha+\beta_1K_i+u_i),\qquad i = 1, \ldots, n,

akkor J természetes alapú logaritmusát véve (ln(J)), és azt használva függő változónak a becsülendő modell a következő lesz:


\ln(J)_i=\alpha+\beta_1K_i+u_i,\qquad i = 1, \ldots, n,

ami egy lineáris regressziós modell.

Figyelni kell azonban arra, hogy a változók transzformálása esetén a paraméterek értelmezése változik az alap lineáris regressziós modellhez képest.

Becslési módszerek[szerkesztés | forrásszöveg szerkesztése]

Az együtthatók becslésére alkalmazott eljárásokat a becsléselmélet tárgyalja, néhány jelentős alkalmazás:

A módszer alkalmazási területei[szerkesztés | forrásszöveg szerkesztése]

Többszörös lineáris regresszió pszichológiai vonatkozásai[szerkesztés | forrásszöveg szerkesztése]

A pszichológiában gyakran előfordul, hogy egyes jelenségek között lineáris kapcsolat van. Ilyen lehet például a munkára való motiváltság és az egyén teljesítményének kapcsolata.

Minél motiváltabb valaki, feltehetően a munkájában is annál jobb teljesítményt tud nyújtani.

A lineáris regresszió analízis -mely egyike a leggyakrabban alkalmazott statisztikai eljárásoknak- egy olyanmódszer, melynek segítségével egy vagy több változó értékeiből rendre megbecsülhető egy másik változó értéke. Az eljárás a következő célokra alkalmazható:

  • a.) Annak meghatározására, hogy a független változók hatással vannak-e a függő változóra: Van-e összefüggés?
  • b.) Annak meghatározására, hogy a független változók milyen mértékben magyarázzák a függő változó ingadozását: Milyen a kapcsolat erőssége?
  • c.) A kapcsolat formájának és struktúrájának meghatározása: matematikai egyenlőség felállítása.
  • d.) Predikció: függő változó értékeinek előrejelzése.
  • e.) Más független változók kontrollálása, amikor adott változó hatását vizsgáljuk.

A pszichológiában számos olyan jelenség van, amelyet nem tudunk közvetlenül mérni, vagy azért mert nem tudjuk számszerűsíteni, ilyen például a munkahellyel való elégedettség, vagy azért, mert valamilyen jövőbeli eseményre vonatkozik, mint például a pszichoterápia sikeressége.

Vannak olyan tényezők, amelyek befolyásolhatják ezeket a jelenségeket számszerűen is, az előző példáknál maradva ilyenek a fizetés nagysága, a nem, az életkor, és ezek számszerűen is mérhetők. Ez azt jelenti, hogyha megmérjük ezeket a tényezőket, akkor következtetni tudunk általuk a munkahellyel való elégedettségre, előre jelezni tudjuk azt.

Az előrejelzés a pszichológiában is ugyanolyan fontos, mint bármely más tudományterületen. Például a pszichoterápia várható hatékonyságát előre jelezhetjük a kliens életkora, a terápiára való motiváltsága, környezete támogató ereje, a terapeuta szaktudása, a probléma súlyossága szerint. Egy iskolai képességeket vizsgáló teszt alapján megjósolhatjuk az iskolai teljesítményt, a tanulmányi átlagot. Ha egy gépírónő gépírási próbatesztben jól teljesít, feltehető, hogy ténylegesen a munkájában is.

De természetesen ezek az előrejelzések nem tökéletesek. Az ilyen kapcsolat nem feltétlenül jelent oksági viszonyt, csak annyit jelent, hogy egy változó értékei megjósolhatók a többi változó ismeretében. Ilyen viszony lehet a testmagaság és az értelmi képesség között, hiszen az nem jelenthető ki, hogy a nagyobb testmagasság az értelmi képesség növekedését okozza.

Jelen esetben egy harmadik tényező is áll a háttérben: az életkor. Vagyis az életkor emelkedésével a fejlődés során a testmagasság is növekszik, mellyel együtt járhat az értelmi képesség pozitív irányú változása is.

Amikor pszichológiai vizsgálatot végzünk, szükséges, hogy a vizsgált személy jellemzőit, tulajdonságait számszerű faktorként adjuk meg. Ezeket a számszerű faktorokat nevezzük változóknak. Ezeket a változókat használjuk annak vizsgálatára, hogy egyes jelenségek miként befolyásolnak más jelenségeket, vizsgáljuk, hogy formalizálható–e ez a hatás, illetve egyes változók értékeiből következtethetünk-e más változók értékeire. Két változó közötti szisztematikus összefüggés legegyszerűbb formája a lineáris kapcsolat, amely alapján megmondható, milyen mértékű változás áll be y változóban, ha x adott mértékben változik. Megfelelő képlet alkalmazásával bizonyított, hogy a munkahelyi elégedettség és a fizetés között a kapcsolat lineáris. Minél több a fizetés, annál elégedettebb a személy.

A legtöbb pszichológiai vizsgálatnak nem az a célja, hogy indexszámmal fejezze ki két változó között a kapcsolatot, hanem előjelzőket (prediktorokat) szeretne kialakítani azáltal, hogy meghatározza a két változó közti függvényszerű viszonyt. A függvényszerű összefüggés alapja, hogy valamilyen módon adatokat kapunk személyekről, ugyanazon személyektől adatokat gyűjtenek az előjelző (prediktor) vagy független változóra vonatkozóan, valamint a cél- vagy függő változóra vonatkozóan is. A prediktor változóból több is lehet, ezek alapján végezzük a becslést, a célváltozó pedig az, amelyet meg szeretnénk becsülni. Például a pszichoterápiában a beteg életkora, motiváltsága a függő, a terápia hatékonysága a célváltozó.

A lineáris regresszió-számítás során a változók adatait egy koordináta rendszerben ábrázolhatjuk, ahol a vízszintes tengely a független és a függőleges tengely a függő változó. A fizetés és elégedettség példájánál maradva a vízszintes tengelyen a fizetést, a függőleges tengelyen az elégedettséget jelöljük. Az összetartozó értékpárokat pontdiagrammal ábrázoljuk. Az eljárás során a ponthalmazra leginkább illeszkedő egyenest (regressziós egyenes) keressük. A leginkább illeszkedő azt jelenti, hogy az egyes pontok a regressziós egyenestől függőleges irányban vett távolságainak, vagyis a hibáknak a négyzetes összege a lehető legkisebb. A regressziós egyenes jellemzésével tulajdonképpen a változók közötti kapcsolatot is le tudjuk írni. A két változó közötti kapcsolat irányáért és a kapcsolat szorosságáért két faktor a felelős: az egyik az egyenes meredeksége, a másik a pontok egyenestől való távolsága. A két változó közötti kapcsolatot leíró egyenlet alakja y=a+bx.


Lásd még[szerkesztés | forrásszöveg szerkesztése]

Jegyzetek[szerkesztés | forrásszöveg szerkesztése]

  1. Általános, többváltozós esetben hipersíkot.
  2. Ez a formula a Frisch–Waugh tétel speciális eseteként is értelmezhető.
  3. Szigorú értelemben véve az egyszerű lineáris regresszió β együtthatójának becslése során is levonjuk a csupa 1-es vektorból álló változó hatását.

Források[szerkesztés | forrásszöveg szerkesztése]