Korreláció

A matematikában (a statisztikában) a korreláció jelzi két tetszőleges érték közötti lineáris kapcsolat nagyságát és irányát (avagy ezek egymáshoz való viszonyát). Az általános statisztikai használat során a korreláció jelzi azt, hogy két tetszőleges érték nem független egymástól. Az ilyen széles körű használat során számos együttható, érték jellemzi a korrelációt, alkalmazkodva az adatok fajtájához.

A korreláció csak a lineáris kapcsolatot jelzi. Például egy valószínűségi változó és négyzete korrelációja lehet nulla. Ha két véletlen mennyiség korrelációja nulla, akkor korrelálatlanok; ilyenkor a kapcsolatot, ha van, másként kell jellemezni, például feltételes valószínűségekkel. A normális eloszlású valószínűségi változókra jellemző, hogy ha korrelálatlanok, akkor függetlenek is. Így a korreláció jól alkalmazható normális eloszlásúnak tekinthető mérhető mennyiségek közötti kapcsolat erősségének mérésére.

Másfajta összefüggések kimutatására más eszközök kellenek. Használható például a kölcsönös információ:

I(X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\left({\frac {p(x,y)}{p_{1}(x)\,p_{2}(y)}}\right)},\,\!

vagy a feltételes valószínűségek. Az A eseménynek a B eseményre vonatkozó feltételes valószínűsége megadja az A esemény bekövetkezésének a valószínűségét, feltéve hogy a B esemény bekövetkezik.

Van olyan, a korrelációhoz hasonló eszköz, amivel bármilyen függvénykapcsolat kimutatható. ^{[pontosabban?]}

Korrelációs együttható[szerkesztés]

A korrelációs együttható (r) előjele a kapcsolat irányát mutatja meg, a nagysága (0-1 közötti szám) pedig az együtt járás szorosságát, az összefüggés erejét mutatja.

A korrelációs együttható jelölései[szerkesztés]

Populációbeli (elméleti) korrelációs együttható jelölése:
- ρ(ejtsd: ró), ρ_xy, ρ(x,y)
Mintabeli (Pearson-féle) korrelációs együttható jelölése:
- r, r_xy, r(x,y)

A korrelációs együttható jellemzői^[1][szerkesztés]

-1 ≤ r ≤ +1; -1 ≤ ρ ≤ +1
Ha X és Y független, akkor r(X,Y) = 0
Ha r(X,Y) = 0, vagyis ha X és Y korrelálatlan, akkor nem feltétlenül függetlenek, de biztos, hogy nincs köztük lineáris típusú összefüggés.

Korreláció számítása[szerkesztés]

A korreláció a következő képlettel számítható:

\mathrm {corr} {(X,Y)}={\frac {\mathrm {cov} (X,Y)}{\mathbb {D} (X)\cdot \mathbb {D} (Y)}}={\frac {\mathbb {E} \left[(X-\mathbb {E} (X))(Y-\mathbb {E} (Y))\right]}{\mathbb {D} (X)\cdot \mathbb {D} (Y)}}={\frac {\mathbb {E} (XY)-\mathbb {E} (X)\cdot \mathbb {E} (Y)}{\mathbb {D} (X)\cdot \mathbb {D} (Y)}},

ahol $\mathbb {E}$ a várható értéket, $\mathbb {D}$ a szórást jelöli.

A statisztikában nem állnak rendelkezésre az elméleti értékek, így a tapasztalati korrelációt a következőképpen számítják:

r_{X,Y}={\frac {\displaystyle \sum _{i=1}^{n}(X_{i}-{\bar {X}})(Y_{i}-{\bar {Y}})}{(n-1)s_{X}s_{Y}}},

ahol ${\bar {X}}$ és ${\bar {Y}}$ rendre $X$ és $Y$ tapasztalati átlagát, valamint $s_{X}$ és $s_{Y}$ a tapasztalati korrigált szórást jelölik.

Korrelációt számíthatunk statisztikai programok segítségével is. A statisztikai elemzések/analyze menüpontban találhatjuk meg. A programok közölnek leíró statisztikát, megadják az r korrelációs együttható értékét, és a szignifikanciaszintet (p/sig jelöléssel), esetleg a konfidenciaintervallumot is.

Szignifikancia számítása[szerkesztés]

A korrelációs együttható szignifikanciájának vizsgálatához a H₀: ρ = 0 hipotézist fogalmazzuk meg. Döntésünk alapja egy n elemű mintában kiszámított korrelációs együttható (r).

A H₀elutasíthatósága függ az r együttható nagyságától és az f szabadságfok nagyságától (f = n-2).

A szignifikancia kiszámításához t eloszlású statisztikát használunk. Ennek képlete:

$t=r\cdot {\sqrt {\frac {n-2}{1-r^{2}}}}$

Az egyenlet eredményének és a t eloszlású változó eloszlásának statisztikai táblája segítségével határozhatjuk meg, hogy eredményünk szignifikáns-e, és ha igen, akkor milyen mértékben.

Ha |t| > t_table, elvetjük H₀-t és azt mondjuk, hogy a populáció korrelációs együtthatója különbözik 0-tól. Tehát, ha a kapott eredményünk abszolút értéke nagyobb, mint a táblázatban az adott szabadságfokhoz és szignifikanciaszinthez (ez általában 0,95) tartozó szám, akkor 95%-os bizonyossággal elutasíthatjuk a nullhipotézist.

Korrelációmátrix[szerkesztés]

Az $\mathbf {X} =(X_{1},X_{2},\ldots ,X_{n})$ valószínűségi vektorváltozó korrelációmátrixa

n valószínűségi változó (X₁, ..., X_n), korrelációja egy n × n-es mátrix, amiben az i,j-edik elem corr(X_i, X_j).

A korrelációmátrix szimmetrikus, mert X_i és X_j korrelációja megegyezik X_j és X_i korrelációjával. A valószínűségi változók normalizáltjainak kovarianciamátrixa megegyezik az adott valószínűségi mátrix kovarianciamátrixával, ezért pozitív definit.

Parciális korreláció[szerkesztés]

A parciális korreláció n > 2 valószínűségi változó esetén azt méri, hogy két valószínűségi változó milyen kapcsolatban áll egymással a többi változótól eltekintve.

Érzékenység[szerkesztés]

A korreláció nem függ az adatok nagyságától, de érzékeny a mintavételezésre. Egy szűkebb mintából számított korreláció rendszerint kisebb, mint a bővebb mintából számolt. Például, ha az apák és fiaik magasságának korrelációját számítjuk, akkor a teljes mintán erősebb összefüggést észlelünk, mintha csak azokon az adatokkal dolgoznánk, amik szerint az apák magassága 165 cm és 170 cm közé esik.

Négy adathalmaz ugyanazzal a korrelációval (0,816)

A korreláció érzékeny a kivételes adatokra (outlierek). Egy kivételes adat nagyon lecsökkentheti, vagy megnövelheti. Francis Anscombe példájában^[2] a négy y változónak ugyanaz a várható értéke (7,5), szórása (4,12), korrelációja (0,816), és a regressziós egyenese (y = 4 + 0,5x), a tapasztalati eloszlások mégis különböző képet adnak. A harmadik képen egy kivételes adat lecsökkenti az 1 korrelációt 0,816-re; a negyediken a független adatok 0 korrelációját ugyanennyire növeli. A korreláció nem veszi észre a második képen látható nemlineáris összefüggést sem.

Példák[szerkesztés]

Az intelligencia és a kreativitás normális eloszlásúnak tekinthető. A különféle mérések szerint korrelációs együtthatójuk 0,19-0,39 közé esik. Ez a korreláció gyengének számít. Ezért mondják, hogy az intelligencia és a kreativitás között nincs kapcsolat.
Legyen az A tulajdonság előfordulásának valószínűsége $6\cdot 10^{-3}$ , a B tulajdonságé $8\cdot 10^{-3}$ , a két tulajdonság együttes előfordulásának valószínűsége $7{,}5\cdot 10^{-4}$ . Ekkor A és B korrelációja 0,01483, gyakorlatilag nem létezik, bár mindkét feltételes valószínűség jóval nagyobb a nem feltételesnél: P(A|B) = 0,125 és P(B|A) = 0,09375, tehát a két tulajdonság nem független.

Alkalmazások[szerkesztés]

Az idősorok elemzésében és a jelfeldolgozásban gyakran alkalmazzák a korrelációt az összehasonlításokban.

Ha kiszámítjuk két adatsor értékkészletének korrelációját, akkor keresztkorrelációt kapunk.
Ha egy adatsort és egy eltoltjának korrelációját számoljuk így ki, akkor autokorrelációról beszélünk.

A keresztkorreláció segít a két adatsor közötti összefüggés megtalálásában. Ha az egyik adatsort eltoljuk, akkor késleltetett hatások is felfedezhetők. Az autokorrelációval periódusok mutathatók ki az adatsorban.

A jelfeldolgozásban diszkrét adatsor helyett folytonos jelekkel is dolgoznak. Így adódik:

a keresztkorreláció-függvény:

R_{xy}(\tau )=\lim _{T_{F}\to \infty }{\frac {1}{T_{F}}}\int _{-{\frac {T_{F}}{2}}}^{\frac {T_{F}}{2}}x(t)\cdot y(t+\tau )\,\mathrm {d} t

az autokorreláció-függvény:

R_{xx}(\tau )=\lim _{T_{F}\to \infty }{\frac {1}{T_{F}}}\int _{-{\frac {T_{F}}{2}}}^{\frac {T_{F}}{2}}x(t)\cdot x(t+\tau )\,\mathrm {d} t

Értelmezési hiba[szerkesztés]

A korrelációt sokszor félreértelmezik:

Ha két mennyiség korrelál, akkor az egyik okozza a másikat.

Ez nem feltétlenül van így. Például, ha egy vidéken a gólyafészkek és a gyerekek száma korrelál, akkor az nem bizonyítja azt, hogy a gyereket a gólya hozza.

Rangkorreláció[szerkesztés]

A rangkorrelációs együtthatók azt mérik, hogy két sorozat együtt változik-e. Ha az egyik sorozat nő, a másik csökken, akkor a rangkorrelációk negatívak lesznek.

Rangkorrelációt minimum ordinális változók között számíthatunk. Egyik fajtája a Spearman-féle rangkorreláció, ami egy Pearson-féle korreláció a rangszámok között. Egy másik lehetőség a Kendall-féle rangkorreláció, ami a pozitív és a negatív kapcsolatok arányának a különbségét számolja ki.^[3]

Számításuk:

Spearman-féle rangkorreláció:^[4]^[5]

\rho =1-{\frac {6\sum d_{i}^{2}}{n(n^{2}-1)}}.

Kendall-féle korreláció:

\tau ={\frac {n_{c}-n_{d}}{{\frac {1}{2}}{n(n-1)}}}

ahol $n_{c}$ a megfelelő, és $n_{d}$ az eltérő párok száma.

A korrelációhoz hasonlóan értékeik a $[-1,1]$ intervallumba esnek. Értékük 1, ha a két rangsor ugyanaz; 0, ha a két rangsor egymástól független, és -1, ha egymás megfordításai.

A rangkorrelációkat sokszor a korrelációs együttható könnyen számítható és kevésbé eloszlásérzékeny alternatíváiként kezelik. Ennek azonban nincs sok matematikai alapja: a rangkorrelációkkal más összefüggéseket lehet kimutatni, mint a korrelációs együtthatóval.^[6]^[7]

Példák rangkorrelációra[szerkesztés]

A rangkorrelációk nem ugyanazt mutatják ki, mint a korreláció:

Tekintsük a (0, 1), (100, 10), (101, 500), (102, 2000) számpárok sorozatát! A rangkorrelációk teljes egyezést látnak, mert mindkét sorozat nő, míg a korreláció 0,456, ami azt mutatja, hogy a számpárok távol esnek a regressziós egyenestől.

Bár a szélsőséges esetekben megegyeznek, a rangkorrelációk nem mindig adják ugyanazt. A (1, 1) (2, 3) (3, 2) sorozat Spearman-korrelációja 1/2, míg Kendall-korrelációja 1/3.^[6]

Kulturális korreláció[szerkesztés]

A kultúra egyes elemei között kölcsönös összefüggés, viszony van, ezt nevezik kulturális korrelációnak.^[8]

Jegyzetek[szerkesztés]

↑ [1]
↑ Anscombe, Francis J. (1973). „Graphs in statistical analysis”. The American Statistician 27, 17–21. o.
↑ Archivált másolat. [2014. december 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2014. december 16.)
↑ Myers, Jerome L., Arnold D. Well. Research Design and Statistical Analysis, second edition, Lawrence Erlbaum, 508. o. (2003). ISBN 0805840370
↑ Maritz. J.S. (1981) Distribution-Free Statistical Methods, Chapman & Hall. ISBN 0-412-15940-6. (page 217)
↑ ^a ^b Yule, G.U and Kendall, M.G., "An Introduction to the Theory of Statistics", Charles Griffin & Co. pp 258–270
↑ Kendall, M. G., "Rank Correlation Methods", Charles Griffin & Co., 1955.
↑ A Magyar Néprajzi Lexikon "Korreláció, kulturális" címszava

Források[szerkesztés]

Denkinger Géza: Valószínűségszámítás
Két mennyiség kapcsolatának vizsgálata, korreláció és lineáris regresszió
Korreláció és regresszió
Korreláció-, és regresszióanalízis

További információk[szerkesztés]

Interaktív Flash szimuláció a korreláció szemléltetésére (magyarított)

Matematikaportál • összefoglaló, színes tartalomajánló lap

[1] [1]

[2] Anscombe, Francis J. (1973). „Graphs in statistical analysis”. The American Statistician 27, 17–21. o.

[3] Archivált másolat. [2014. december 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2014. december 16.)

[4] Myers, Jerome L., Arnold D. Well. Research Design and Statistical Analysis, second edition, Lawrence Erlbaum, 508. o. (2003). ISBN 0805840370

[5] Maritz. J.S. (1981) Distribution-Free Statistical Methods, Chapman & Hall. ISBN 0-412-15940-6. (page 217)

[Yule_and_Kendall-6] Yule, G.U and Kendall, M.G., "An Introduction to the Theory of Statistics", Charles Griffin & Co. pp 258–270

[Kendall_Rank_Correlation_Methods-7] Kendall, M. G., "Rank Correlation Methods", Charles Griffin & Co., 1955.

[8] A Magyar Néprajzi Lexikon "Korreláció, kulturális" címszava

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]