Korreláció
A matematikában (a statisztikában) a korreláció jelzi két tetszőleges érték közötti lineáris kapcsolat nagyságát és irányát (avagy ezek egymáshoz való viszonyát). Az általános statisztikai használat során a korreláció jelzi azt, hogy két tetszőleges érték nem független egymástól. Az ilyen széles körű használat során számos együttható, érték jellemzi a korrelációt, alkalmazkodva az adatok fajtájához.
A korreláció csak a lineáris kapcsolatot jelzi. Például egy valószínűségi változó és négyzete korrelációja lehet nulla. Ha két véletlen mennyiség korrelációja nulla, akkor korrelálatlanok; ilyenkor a kapcsolatot, ha van, másként kell jellemezni, például feltételes valószínűségekkel. A normális eloszlású valószínűségi változókra jellemző, hogy ha korrelálatlanok, akkor függetlenek is. Így a korreláció jól alkalmazható normális eloszlásúnak tekinthető mérhető mennyiségek közötti kapcsolat erősségének mérésére.
Másfajta összefüggések kimutatására más eszközök kellenek. Használható például a kölcsönös információ:
vagy a feltételes valószínűségek. Az A eseménynek a B eseményre vonatkozó feltételes valószínűsége megadja az A esemény bekövetkezésének a valószínűségét, feltéve hogy a B esemény bekövetkezik.
Van olyan, a korrelációhoz hasonló eszköz, amivel bármilyen függvénykapcsolat kimutatható.
Tartalomjegyzék |
Számítása [szerkesztés]
A korreláció a következő képlettel számítható:
ahol E a várható érték,
a szórás, μX az X, μY az Y valószínűségi változó várható értéke.
A statisztikában nem állnak rendelkezésre az elméleti értékek, így a tapasztalati korrelációt a következőképpen számítják:
ahol a felülvonásos betűk a tapasztalati várható értéket, sx, sy a tapasztalati korrigált szórásnégyzetet jelölik.
A korreláció -1 és +1 közé esik, és egyenlőség akkor és csak akkor áll fenn, ha a két változó lineáris kapcsolatban áll egymással. Skálafüggetlen, azaz invariáns X és Y marginális eloszlásainak monoton transzformációjára.
Korrelációmátrix [szerkesztés]
n valószínűségi változó, X1, ..., Xn korrelációja egy n × n-es mátrix, amiben az i,j-edik elem corr(Xi, Xj).
A korrelációmátrix szimmetrikus, mert Xi és Xj korrelációja megegyezik Xj és Xi korrelációjával. A valószínűségi változók normalizáltjainak kovarianciamátrixa megegyezik az adott valószínűségi mátrix kovarianciamátrixával, ezért pozitív definit.
Parciális korreláció [szerkesztés]
A parciális korreláció n > 2 valószínűségi változó esetén azt méri, hogy két valószínűségi változó milyen kapcsolatban áll egymással a többi változótól eltekintve.
Érzékenység [szerkesztés]
A korreláció nem függ az adatok nagyságától, de érzékeny a mintavételezésre. Egy szűkebb mintából számított korreláció rendszerint kisebb, mint a bővebb mintából számolt. Például, ha az apák és fiaik magasságának korrelációját számítjuk, akkor a teljes mintán erősebb összefüggést észlelünk, mintha csak azokon az adatokkal dolgoznánk, amik szerint az apák magassága 165 cm és 170 cm közé esik.
A korreláció érzékeny a kivételes adatokra (outlierek). Egy kivételes adat nagyon lecsökkentheti, vagy megnövelheti. Francis Anscombe példájában[1] a négy y változónak ugyanaz a várható értéke (7,5), szórása (4,12), korrelációja (0,816), és a regressziós egyenese (y = 3 + 0,5x), a tapasztalati eloszlások mégis különböző képet adnak. A harmadik képen egy kivételes adat lecsökkenti az 1 korrelációt 0,816-ra; a negyediken a független adatok 0 korrelációját ugyanennyire növeli. A korreláció nem veszi észre a második képen látható nem lineáris összefüggést sem.
Példák [szerkesztés]
- Az intelligencia és a kreativitás normális eloszlásúnak tekinthető. A különféle mérések szerint korrelációs együtthatójuk 0,19-0,39 közé esik. Ez a korreláció gyengének számít. Ezért mondják, hogy az intelligencia és a kreativitás között nincs kapcsolat.
- Legyen az A tulajdonság előfordulásának valószínűsége
, a B tulajdonságé
, a két tulajdonság együttes eloszlásának valószínűsége
. Ekkor A és B korrelációja 0,01483, gyakorlatilag nem létezik, bár mindkét feltételes valószínűség jóval nagyobb a nem feltételesnél: P(A|B) = 0,125 és P(B|A) = 0,09375, tehát a két tulajdonság nem független.
Alkalmazások [szerkesztés]
Az idősorok elemzésében és a jelfeldolgozásban gyakran alkalmazzák a korrelációt az összehasonlításokban.
- Ha kiszámítjuk két adatsor értékkészletének korrelációját, akkor keresztkorrelációt kapunk.
- Ha egy adatsort és egy eltoltjának korrelációját számoljuk így ki, akkor autokorrelációról beszélünk.
A keresztkorreláció segít a két adatsor közötti összefüggés megtalálásában. Ha az egyik adatsort eltoljuk, akkor késleltetett hatások is felfedezhetők. Az autokorrelációval periódusok mutathatók ki az adatsorban.
A jelfeldolgozásban diszkrét adatsor helyett folytonos jelekkel is dolgoznak. Így adódik:
- a keresztkorreláció-függvény:
- az autokorreláció-függvény:
Értelmezési hiba [szerkesztés]
A korrelációt sokszor félreértelmezik:
- Ha két mennyiség korrelál, akkor az egyik okozza a másikat.
Ez nem feltétlenül van így. Például, ha egy vidéken a gólyafészkek és a gyerekek száma korrelál, akkor az nem bizonyítja azt, hogy a gyereket a gólya hozza.
Rangkorreláció [szerkesztés]
A rangkorrelációs együtthatók azt mérik, hogy két sorozat együtt változik-e. Ha az egyik sorozat nő, a másik csökken, akkor a rangkorrelációk negatívak lesznek.
Többféle rangkorrelációt ismerünk. Ezek közül a Spearman-rangkorreláció és a Kendall-korreláció a legnépszerűbb.
Számításuk:
Spearman-rangkorreláció:[2][3]
Kendall-korreláció:
ahol nc a megfelelő, és nd az eltérő párok száma.
A korrelációhoz hasonlóan értékeik a [-1,1] intervallumba esnek. Értékük 1, ha a két rangsor ugyanaz; 0, ha a két rangsor egymástól független, és -1, ha egymás megfordításai.
A rangkorrelációkat sokszor a korrelációs együttható könnyen számítható és kevésbé eloszlásérzékeny alternatíváiként kezelik. Ennek azonban nincs sok matematikai alapja: a rangkorrelációkkal más összefüggéseket lehet kimutatni, mint a korrelációs együtthatóval.[4][5]
Példák rangkorrelációra [szerkesztés]
A rangkorrelációk nem ugyanazt mutatják ki, mint a korreláció:
Tekintsük a (0, 1), (100, 10), (101, 500), (102, 2000) számpárok sorozatát! A rangkorrelációk teljes egyezést látnak, mert mindkét sorozat nő, míg a korreláció 0,456, ami azt mutatja, hogy a számpárok távol esnek a regressziós egyenestől.
Bár a szélsőséges esetekben megegyeznek, a rangkorrelációk nem mindig adják ugyanazt. A (1, 1) (2, 3) (3, 2) sorozat Spearman'-korrelációja 1/2, míg Kendall-korrelációja 1/3.[4]
További információk [szerkesztés]
Források [szerkesztés]
- ↑ Anscombe, Francis J. (1973.). „Graphs in statistical analysis”. The American Statistician 27, 17–21. o.
- ↑ Myers, Jerome L., Arnold D. Well. Research Design and Statistical Analysis, second edition, Lawrence Erlbaum, 508. o (2003). ISBN 0805840370
- ↑ Maritz. J.S. (1981) Distribution-Free Statistical Methods, Chapman & Hall. ISBN 0-412-15940-6. (page 217)
- ^ a b Yule, G.U and Kendall, M.G., "An Introduction to the Theory of Statistics", Charles Griffin & Co. pp 258–270
- ↑ Kendall, M. G., "Rank Correlation Methods", Charles Griffin & Co., 1955.
- Denkinger Géza: Valószínűségszámítás
- Két mennyiség kapcsolatának vizsgálata, korreláció és lineáris regresszió
- Korreláció és regresszió
- Korreláció-Lexikon
- Korreláció-, és regresszióanalízis



![R{(X,Y)}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y},](http://upload.wikimedia.org/math/f/3/7/f372b6c16a5ae382599c3363ae17adad.png)

, a B tulajdonságé
, a két tulajdonság együttes eloszlásának valószínűsége
. Ekkor A és B korrelációja 0,01483, gyakorlatilag nem létezik, bár mindkét feltételes valószínűség jóval nagyobb a nem feltételesnél: P(A|B) = 0,125 és P(B|A) = 0,09375, tehát a két tulajdonság nem független.


