Rangkorreláció

A Wikipédiából, a szabad enciklopédiából

A rangkorreláció vagy rangkorrelációs együttható a valószínűségszámításban valószínűségi változók közötti kapcsolatot vizsgál a korrelációhoz hasonlóan. Az összefüggést tetszőleges monoton függvény szerint képes vizsgálni, eloszlásuk vizsgálata nélkül.

A korrelációval szemben a rangkorreláció nemcsak lineáris kapcsolatot tud leírni, továbbá a kilógó adatok sem zavarják.

Közelebbről két rangkorrelációs együtthatót használnak: az egyik a Spearman-rhó, a másik a Kendall-tau. Több megfigyelő észlelései közötti összefüggés vizsgálatára alkalmas a W konkordanciaegyüttható.

Számítása[szerkesztés]

mérésből álló párral kezdünk, jelölje ezeket . A rangkorreláció minden értékhez relatívan meghatároz egy ragot a többi értékkel szemben, azaz hozzárendel egy számot közül. Ezután kezelhetők ezek a számok úgy, mintha egyenletes eloszlásból származnának. Ha minden különböző, akkor minden szám egyszer fordul elő. Ha vannak köztük egyenlőek, akkor a középső értéket kapják, mint amit akkor rendelnének hozzájuk, ha mind különbözőek lennének. Ekkor kapcsolatokról, vagy döntetlenekről beszélnek.[1] Ez a szám lehet egész, vagy félegész. Mindkét esetben a számok összege ugyanannyi, azaz 1-től -ig, vagyis .

Ugyanezt elvégzik az értékekkel is, mindegyiket az -kkel szembeni rangjával helyettesítik.

Az intervallumskálázott adatok helyettesítésével információt vesztünk, számítása azonban értelmes lehet robosztussága miatt. Ez azt jelenti, hogy kevésbé érzékeny a kilógó adatokra és a hibákra, ahogy a medián is kevésbé érzékeny ezekre, mint az átlag. Rangsorok közötti kapcsolat felderítésében a rangkorrelációnak nincs alternatívája.

Spearman-rangkorreláció[szerkesztés]

A Spearman-rangkorrelációt Charles Spearman után nevezték el, és gyakran a ρ betűvel illetve -sel jelölik.

Elméletben ρ a Pearson szorzat-momentum-korreláció speciális esete, ahol az adatokat ranggá konvertálják, mielőtt kiszámítják a rangkorrelációt:

Ahol

az rangja,
az rangjainak középértéke,
az rangjainak tapasztalati szórása,
és

kovarianciája.

Speciális esetek[szerkesztés]

A gyakorlatban inkább egy egyszerűbb képletet használnak, ami akkor ad helyes eredményt, ha minden rang különbözik.

A nyers adatokat konvertálják, és minden párra kiszámítják a különbséget, jelben . Ezzel a ρ

ahol az értékpárok száma.

Ellenben ha vannak egyező értékek, ez a képlet nem ad pontos eredményt, de ha nem sok helyen azonosak az értékek, akkor az eltérés kicsi. A pontos eredményt egy bonyolultabb képlet adja:[2]

ahol .; az azonos rangú megfigyelések száma, továbbá vagy helyett áll.

Példák[szerkesztés]

Első példa[szerkesztés]

Például vizsgáljuk különböző emberek magasságát és testsúlyát. A magasságok 175 cm, 178 cm és 190 cm; a testsúlyok rendre 65 kg, 70 kg és 98 kg.

Ebben az esetben maximális rangkorreláció adódik, mivel a legkisebb ember a legkönnyebb és a legnagyobb ember a legnehezebb. Ha fordítva lenne, akkor a rangkorreláció is kicsi lenne. A rangkorreláció számszerűen fejezi ki az összefüggést két rangsor között.

Második példa[szerkesztés]

Adva legyenek megfigyelések két változóról, a-ról és b-ről:

i 1 2 3 4 5 6 7 8
2,0 3,0 3,0 5,0 5,5 8,0 10,0 10,0
1,5 1,5 4,0 3,0 1,0 5,0 5,0 9,5

A rangok meghatározására rendezik az értékeket, és normálják, azaz egyező értékek esetén középértéket vesznek. Ezután helyreállítják az eredeti sorrendet, hogy képezhessék a különbségeket.

Bemenet Rendezés(érték) Rang Rendezés(index)

Az adatokból a következő köztes eredmény adódik:

a értékei b értékei a rangjai b rangjai
2,0 1,5 1,0 2,5 −1,5 2,25
3,0 1,5 2,5 2,5 0,0 0,00
3,0 4,0 2,5 5,0 −2,5 6,25
5,0 3,0 4,0 4,0 0,0 0,00
5,5 1,0 5,0 1,0 4,0 16,00
8,0 5,0 6,0 6,5 −0,5 0,25
10,0 5,0 7,5 6,5 1,0 1,00
10,0 9,5 7,5 8,0 −0,5 0,25
       

A táblázat a értékei szerint vannak rendezve. Fontos, hogy az értékekhez rangok legyenek rendelve. A sorban kétszer jelenik meg a 3 érték, rangjuk az átlagos (2+3)/2 = 2,5. Ugyanez történik a b adatsornál is.

Werte von a Werte von b
2,0 1,5 1 0 2 6
3,0 1,5 2 6 - -
3,0 4,0 - - 1 0
5,0 3,0 1 0 1 0
5,5 1,0 1 0 1 0
8,0 5,0 1 0 2 6
10,0 5,0 2 6 - -
10,0 9,5 - - 1 0
   

A Horn-korrekcióval

adódik.

A szignifikancia meghatározása[szerkesztés]

Teszt szempontjából a érték vizsgálata, hogy nullától különbözik-e, permutációteszt. Kiszámítják annak a valószínűségét is, hogy értéke legalább akkora-e, mint ahogy azt a nullhipotézis megjósolja.

Ezt a módszert használhatják viszonylag kis adathalmazokon, amiken egyszerűen létrehozhatók a nullhipotézist valószínűsítő permutációk.

Kendall-tau[szerkesztés]

Szemben a Spearman-rhóval, a Kendell-tau a rangok közötti különbséget használja fel. Rendszerint a értéke kisebb, mint a értéke. A együtthatót érdemes intervallumskálázott adatokra használni, ha nem normális eloszlásúak, a skálák egyenetlen beosztásúak vagy a szúrópróba mérete kicsi.

Kiszámítása[szerkesztés]

A számításához tekintjük az szerint rendezett és párokat, ahol és ; továbbá

Az első párt az összes többivel összehasonlítjuk, a második párt az első kivételével mindegyikkel, és így tovább, az utolsót nem hasonlítjuk össze egyikkel sem. Tehát páronkénti összehasonlítást végzünk.

A következőket állapítjuk meg a párokról:

  • Ha és , akkor konkordáns.
  • Ha és , akkor diszkordáns.
  • Ha és , akkor kötés van -ban.
  • Ha és , akkor kötés van -ben.
  • Ha és , akkor kötés van -ben és -ban.

Megszámoljuk a különböző párokat:

  • A konkorodánsok száma ,
  • a diszkordánsok száma ,
  • az -beli kötések száma ,
  • az -beli kötések száma , és
  • az -beli és -beli kötések száma .

A Kendall- a konkordáns és a diszkordáns párok számát hasonlítja össze:

Ha pozitív, akkor több konkordáns pár van, mint diszkordáns. Ami azt jelenti, hogy ha , akkor valószínűbb, hogy . Ha negatív, akkor a diszkordáns párokból van több, vagyis ha , akkor az a valószínűbb, hogy . Az normálja a Kendall- értékét, így

Tesztben[szerkesztés]

Tekintve egy valószínűségi változót, Kendall belátta, hogy ha a tesztben

vs. ,

akkor a nullhipotézis teljesülése esetén eloszlása approximatívan normális: . Az approximációs tezt mellett permutációteszt is végezhető.

További tau együtthatók[szerkesztés]

Kendall a fent definiált számértékek felhasználásával további három együtthatót definiált:

(lűsd fenn)

A csak akkor alkalmazható, ha nincsenek kötések. A nem négyzetes kontingenciatáblákon nem érheti el a illetve szélsőértékeket. Nem veszi figyelembe az -ben és -ban levő kötéseket. Négypróbás tesztekben egyezik a együtthatókkal, és ha két, csak 0 és 1 értékeket felvevő valószínűségi változókat vizsgálunk, akkor a Pearson-korrelációval is.

Tetra- és polichorikus korreláció[szerkesztés]

A Likert-skálával kapcsolatban gyakran tetra- illetve polichorikus korrelációt számolnak. A tetrachorikus korrelációt bináris adatokhoz használják. Az alaphipotézis az, hogy a válaszadók valamilyen mérték szerint adtak választ arra, hogy szerintük mi mennyire teljesül rájuk.

A megfigyelt ordinális változók mögött többnyire folytonos változók állnak. A nem megyfigyelt változók közötti kapcsolatot tetra- és polichorikus korrelációk fejezik ki.

Használata akkor javallott, ha a Likert-itemek esetén kevesebb, mint hét.[3] A gyakorlatban ehelyett a Bravais-Pearson-korrelációval dolgoznak, ám megmutatható, hogy ezzel alábecsülik a korrelációt.[4]

Becslési módszerek[szerkesztés]

Feltéve, hogy a valószínűségi változók páronként kétváltozós normális eloszlásúak, a maximum-likelihood-módszerrel becsülhető a meg nem figyelt valószínűségi változók közötti korreláció. Ennek két módja van:

Egylépéses módszer: Az ismeretlen korreláció és az ismeretlen intervallumhatárok a maximum-likelihood-függvény paraméterei; azaz egyetlen lépésben becslik őket.

Kétlépéses módszer: Először az intervallumhatárokat becslik azzal a feltevéssel, hogy az változók eloszlása normális. A második lépésben kerül sor a korrelációra.

A tetrachorikus korreláció approximációs képlete[szerkesztés]

\ 0 1
0
1

Két bináris változó esetén a tetrachorikus korreláció közelíthető úgy, mint

ahol a jelölések a jobb oldalon látható kereszttáblázat szerintiek.

Egy korreláció pontosan akkor fordul elő, ha . Hasonlóan, a érték pontosan akkor fordul elő, ha .

Jegyzetek[szerkesztés]

  1. lásd Fahrmeir et al. (2004): Statistik, S. 142
  2. Horn, D. (1942): A correction for the effect of tied ranks on the value of the rank difference correlation coefficient. In: Educational and Psychological Measurement, 3, 686–690.
  3. D. J. Bartholomew, F. Steele, J. I. Galbraith, I. Moustaki (2002): The Analysis and Interpretation of Multivariate Data for Social Scientists, Chapman & Hall/CRC
  4. K. G. Jöreskog, D. Sorbom (1988): PRELIS, a program for multivariate data screening and data summarization. Scientific Software, Mooresville

Fordítás[szerkesztés]

Ez a szócikk részben vagy egészben a Rangkorrelationskoeffizient című német Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.