Regressziószámítás

A Wikipédiából, a szabad enciklopédiából

A statisztikában a regressziószámítás vagy regresszióanalízis során két vagy több véletlen változó között fennálló kapcsolatot modellezzük. A regressziós modell tulajdonságai alapján megkülönböztethetünk lineáris és nemlineáris regressziót, az adataink alapján pedig idősor, keresztmetszeti, és panel regresszióanalízist.

A feladat[szerkesztés | forrásszöveg szerkesztése]

A regresszió feladata két vagy több valószínűségi változó közötti y = f(x_1,x_2,\dots,x_n)\quad függvénykapcsolat meghatározása.

A változókat reprezentáló (n+1) dimenziós P(y;x_1,x_2,\dots,x_n) vektor koordinátáira kapott m számú P_1,P_2,\dots,P_m mérési adatból meg kell határozni egy, a vizsgált jelenséget leíró, jól kezelhető függvényt: y=f(x_1,x_2,\dots,x_n)=f(X), amelynek az X_k=(x_1,x_2,\dots,x_n)_k helyeken felvett \hat{y}_k=f(X_k) értékei

  • vagy megegyeznek a megfelelő mért értékekkel: \hat{y}_k=y_k - (interpoláció),
  • vagy az e_k=(y_k-\hat{y}_k) eltérések valamilyen minimum-feltételnek eleget tesznek (regresszió).

Az eltérések mértékét többféleképpen lehet megadni. Leggyakrabban a hibaértékek e_k eltérések : \sum_{i=1}^m e^2_k négyzetösszegének minimumát követeljük meg. (l.: legkisebb négyzetek módszere).

A vizsgált jelenség természete szabja meg a közelítésre alkalmas függvény típusát. Eszerint megkülönböztetünk lineáris és nemlineáris regressziót. A kapcsolt változók száma szerint ugyancsak eltérnek a modellek. Ilyen értelemben beszélünk két-, három- stb. változós regresszióról.

Lineáris regresszió[szerkesztés | forrásszöveg szerkesztése]

Az általános lineáris modell az

\hat{y}=A_0+A_1x_1+A_2x_2+\dots+A_nx_n

függvény A_i együtthatóinak meghatározását követeli meg. (Többváltozós lineáris regresszió.)

A leggyakoribb kétváltozós lineáris modell a síkon derékszögű koordináta-rendszerben pontokkal ábrázolható adathalmazra \hat{y}=A_1x+A_0 egyenletű egyenes illesztését írja elő. Ezt az egyenest szokás trend-vonalnak, az egyenlet A_1 együtthatóját trendnek (meredekség, tendencia), A_0 konstansát tengelymetszetnek nevezni.

LinReg.gif

Az együtthatók becslésére alkalmazott eljárások:

Nemlineáris regresszió[szerkesztés | forrásszöveg szerkesztése]

Nemlineáris regressziószámítást akkor alkalmaznak, ha a modell nem lineáris. Az ilyenkor alkalmazható linearizáló módszer abból áll, hogy az eredeti (y;x_1,\dots) változók helyett, velük összefüggő, de egymással lineáris kapcsolatban lévő (Y;X_1,\dots) változókat vezetünk be.

Például az y=A\cdot e^{Bx}\quad formulából az X=x ; Y=\ln{y}\quad helyettesítésekkel az Y=\ln A +B\cdot X\quad lineáris kapcsolat adódik. Ennek(a,b) együtthatóiból az eredeti formula konstansai adódnak:  A=e^{a}; B=b\quad.