Khí-négyzet próba

A Wikipédiából, a szabad enciklopédiából

A Pearson-féle khí-négyzet (χ2) próba diszkrét eloszlású változók vizsgálatára alkalmas statisztikai eljárás.

Milyen típusú változók esetén alkalmazható[szerkesztés | forrásszöveg szerkesztése]

A nominális (vagy kategoriális) változókat tekintjük diszkrét változónak. Különböző kategoriális változók léteznek, alapvető elvárás, hogy egy entitás (személy, dolog stb.) egy kategóriába eshessen csupán (az ilyen típusú változók legáltalánosabb példája a nem). De kategoriális változót jelent az is, hogy valaki helyesen válaszolt egy feltett kérdésre vagy sem, illetve, hogy a lehetséges jelöltek közül, végül kire szavazott. Fontos megjegyezni, hogy folytonos eloszlású változók is diszkrétté alakíthatóak, amennyiben véges számú kategóriát alakítunk ki belőlük (például életkor esetében életkori övezeteket, testsúly esetében súly kategóriákat stb.).

Mikor van szükség diszkrét változók kapcsolatának elemzésére?[szerkesztés | forrásszöveg szerkesztése]

Két diszkrét változó átlagának összehasonlítása értelmetlen, mivel a kategoriális változóknak nincs átlaga. A számszerű érték, amit egy változóhoz hozzárendelünk, nem fejez ki valódi értéket, döntés eredménye, hogy melyik kategóriánkat jelöljük 1-es számmal (a személyek neme esetében az egyezményes szabály, hogy 1 jelöli a férfiakat), illetve 2-essel (nem esetében a nőket). Ami diszkrét változók esetében elemezésbe vonható, hogy milyen gyakorisággal esnek elemek/változók az egyes kategóriákba (például egy adott sokaságon belül, hány nő és hány férfi van). Kapcsolatelemzést pedig akkor érdemes végeznünk, ha kíváncsiak vagyunk, van-e összefüggés, hogy egy egyén két kategoriális változón belül, milyen értéket vesz fel. Például azt a kérdést szeretnénk megválaszolni, hogy fejlődési skálánk mennyire jelzi jól előre a gyerekek zavartalan, vagy éppen tipikustól eltérő fejlődését. Annyi dolgunk van, hogy összeszámoljuk, hányan esnek a következő kategóriákba: az egyik a fejlődési skálánk által mutatott eredményre vonatkozik, ami jelen vizsgálat esetében két értéket vehet fel: zavartalan fejlődésű, és atipikus. Másik a hosszútávú kimenet, ami szintén zavartalan és atipikus fejlődés lehet. A legegyszerűbb, ha táblázatos formában jelenítjük meg:

Fejlődési skálánk eredménye
Tipikus Atipikus Összesen
Tipikus 18 2 20
Atipikus 6 24 30
Összesen 24 26 30

1. Táblázat: Táblázatos példa kategoriális változók gyakorisági eloszlására

Pearson-féle Khi négyzet (χ2) próba[szerkesztés | forrásszöveg szerkesztése]

Khi négyzet próbára van szükségünk ahhoz, hogy megállapíthassuk, két kategoriális változó között van-e kapcsolat (példánknál maradva a fejlődési skála becslése és a valós fejlődési kimenet között). Vagyis hogy az egyes kategóriában várható gyakoriságok eltérnek-e a véletlen szintjétől? A próba elvégzéséhez szükségünk van a megfigyeléseink standardizálására. Ha az összes standardizált eltérést összeadjuk, megkapjuk a Pearson féle Khi négyzetet. (Ez az egyenlet az alapja az ANOVA négyzetes eltérések összegét alapul vevő regressziós elemzésének is.) A próba elvégezhetőségéhez a mintaeloszlásnak a Khí négyzet eloszlást kell közelítenie. Minél nagyobb a mintánk, ez az előfeltétel annál egyszerűbben teljesül. Ha azonban kicsi a minta (nem közelít kellőképp a χ eloszláshoz) kisebb a valószínűsége a szignifikancia szint elérésének (vagyis a nullhipotézis hibás elfogadásának – 2. fajú hiba). Emiatt a χ2 alkalmazhatósági feltételének sokan a cellánként minimum 5-ös elemszám elérését tekintik. Ez az 5 egy tapasztalati szám (vannak, akik úgy gondolják 3,5/ cella is elegendő). Ez a szabály 2x2-es kontingencia táblázatoknál alkalmazandó. Előfordulhat azonban nagyobb kontingencia táblázat is, ahol egy kategórián belül nem csak két értéket vehetnek fel a változók. Gondoljunk például arra, hogy a gyerekek hosszútávú fejlődését nem tipiku/atipikus viszonylatban értelmezzük, hanem több lehetséges értéket adunk meg: (1) tipikus, (2) az első év folyamán fejlődési késést mutat, amit behoz, (3) az első három év folyamán mutat fejlődési késést, amit behoz stb. Ilyen nagyobb gyakorisági táblázatok esetében a cellák maximum 20%-ában eltekinthetünk a szigorú elemszám szabály (min. 5 fő) alkalmazásától.

Mi a teendő kis elemszám esetén?[szerkesztés | forrásszöveg szerkesztése]

Kis elemszám esetén a tesztstatisztika nullhipotézis alatti mintaeloszlása általában nem χ2 eloszlású, így az erre az eloszlásra alapozott statisztikai döntés nem lesz korrekt.

Fisher-féle egzakt próba[szerkesztés | forrásszöveg szerkesztése]

Fisher kidolgozott egy olyan statisztikai eljárást, ami bármilyen, így különösen kis elemszám mellett alkalmazható. Ezen egzakt teszt lényege, hogy a tesztstatisztika null-eloszlását minden elemszám mellett kombinatorikus módszerekkel egzaktan állapítja meg, így az ezen a teszten alapuló statisztikai döntés minden elemszám mellett korrekt lesz. Ez a módszer azonban egyúttal rendkívül számolás igényes, és ha nem is mi magunk végezzük el, hanem valamilyen statisztikai szoftvert használunk (pl. SPSS), az eredmény megjelenésére feltehetően úgy is hosszú perceket fogunk várni (minél nagyobb elemszámú a mintánk, annál többet). Ugyanakkor nagy minta esetén teljesen felesleges is használnunk, mivel az egyszerűbben végrehajtható χ2 próba is azonos eredményre fog vezetni.

Valószínűségi hányados (likelihood ratio)[szerkesztés | forrásszöveg szerkesztése]

Fisher-egzakt próba mellett valószínűségi hányados számításával is kiküszöbölhetjük, ha kis elemszámú mintánk sérti a χ2 próba alkalmazási feltételét (ugyanakkor erre a módszerre is igaz, amit a Fisher-egzakt-próbáról már elmondtunk: nagy minták esetén alkalmazása értelmét veszti). A valószínűségi hányados számítása a valószínűség maximalizálásának elvén alapszik, vagyis, hogy a mért adatok előfordulási valószínűségét maximalizáljuk és összehasonlítjuk a nullhipotézisnek megfelelő adatok előfordulási valószínűségével. A logaritmikus modellben az i és a j a kontingencia táblázatunk sorait és oszlopait jelöli.

Yates-féle korrekció[szerkesztés | forrásszöveg szerkesztése]

Akkor érdemes alkalmaznunk, ha 2x2-es χ2 próbánkban a kis elemszám miatt nagyon kicsiny szignifikancia értékeket kaphatunk (vagyis az I. fajú hiba valószínűsége ilyen esetben megnő). A próba logikája azon a felvetésen nyugszik, hogy csökkentjük a χ2 statisztika értékét, ezáltal növeljük a szignifikancia szintet (vagyis kevésbé lesz szignikfáns. Mindezt úgy tehetjük meg, hogy amikor kiszámítjuk megfigyelésünk modelltől való eltérést (megfigyelésij – modellij egyenlet) le kell vonni 0.5 az abszolút értékből mielőtt négyzetre emeljük. Magyarul mindegy, hogy pozitív vagy negatív irányú az eltérés a modellhez képest 0,5-öt levonunk és csak utána emeljük négyzetre.

A χ2 próba elvégzésének feltételei[szerkesztés | forrásszöveg szerkesztése]

Előnye a parametrikus próbákhoz képest, hogy nem előfeltétele a mért változók normál eloszlása (a diszkrét változók nem lehetnek normál eloszlásúak, mivel nem folytonosak). Ettől függetlenül két fontos előfeltételnek teljesülnie kell alkalmazhatóságához: 1. A változók függetlensége (vagyis a kontingencia táblázaton belül minden egyed v. entitás egy cellába tartozik), személyen belüli változások mérésére tehát nem alkalmas. 2. Az elvárt gyakoriság a kontingencia táblázat minden cellájában öt felett van (kivételt a nagyobb kontingencia táblázatok jelentenek, ahol a cellák több mint 20%-ában kell, hogy teljesüljön a feltétel. De nagy kontingencia táblázatok esetén is elvárás, hogy minden cellába kerüljön legalább egy változó).

Bár nem előfeltétele a próba elvégzésének, mégis megemlítendő, hogy ha a cellákon belül a gyakoriságok közel azonosak, és ráadásul a mintánk elég nagy, a változók közti összefüggés könnyen eléri a szignifikancia szintet (ismét fokozott az I. fajú hiba elkövetésének veszélye).

Hogy néz ki mindez egy jól ismert statisztikai programban?[szerkesztés | forrásszöveg szerkesztése]

A táblázatkezelő minden egyes sora ez esetnek felel meg (eredeti példánk esetén, minden sor egy kisgyermeket jelöl). Két változót rendelünk minden résztvevőnkhöz a két vizsgált kategória mentén (fejlődési skálánk eredménye, valós kimenetel), mindegyikhez kreálunk egy számszerű változót is. Fejlődési skálánk szerint tipikus fejlődésű: 1, atipikus: 2. A valóságban tipikus fejlődésű: 1, atipikus 2.

1. ábra: kategoriális változók rögzítésének egy lehetséges módja

Más módon is rögzíthetjük az adatainkat, ugyanazokat a változókat alkalmazva, erre való a Weight Cases menüpont, ami a változók súlyozását jelenti. Ekkor be kell vezetnünk egy harmadik változók, mégpedig a gyakoriságot. Előnye főként nagy minták esetén érvényesül, mivel több száz sor helyett négyben foglalja össze az összes lehetséges típusú kimenetet. Statisztikai programunkon belül a Data menüben található a Weight Cases menüpont, ahol beállíthatjuk, hogy melyik (jelen esetben a Gyakoriságnak elnevezett) változónk fejezi ki, hogy milyen gyakorisággal esnek eseteink megadott kategória kombinációba. Ennek köszönhetően számítógépünk tudni fogja, hogy 1, 1 lehetőségből (vagyis fejlődési skálánkon OK és valóban tipikus fejlődésű gyerekből) 18 van, tehát mintha 18 ilyen sor lenne az adatfájlunkban (lásd 2. ábra).

2. ára: adatok rögzítésének másik lehetséges módja - weight cases

Statisztikai programunk segítséget nyújt az egy kategóriába eső esetek gyakoriságának kiszámításában is (Crosstabs). A Crosstabs elérése jól ismert statisztikai programunkon belül: Analyze → Descriptive Statistics → Crosstabs. A párbeszéd ablakon belül a változóinkat (fejlődési skála eredménye és kimenetel) egyikét egyszerűen csak be kell a nyíl segítségével válogatni a sorok (Rows), a másikat pedig oszlopok (Columns) cellába. Hogy melyik változónkat, melyik cellába (Rows/Columns) húzzuk be, csak azt befolyásolja, hogy az Output fájlban a táblázat sorai illetve oszlopai melyik változónkat jelenítik meg (lásd például jelen fejezet 1. Táblázatát).

3. ábra: Crosstabs párbeszédablak

A Crosstabs parancs továbbá önmagában is alkalmas χ2 próba számítására. Ha a Statistics gombra kattintunk a megjelenő párbeszéd ablakban kiválaszthatjuk a χ2 próba elvégzését (Az egérrel kattintunk a kis négyzetbe a Chi-square felirat mellett).

4. ábra: Khí-négyzet próba a Crosstabsban

A χ2 próba lehetővé teszi két diszkrét változó függetlenségének vizsgálatát. Amennyiben szignifikáns értéket kapunk próbánkon, a Phi és Cramér-féle kontingencia együttható kiszámításával, a két változó közötti kapcsolat erősségére vonatkozó adatot is nyerhetünk (4. ábránkon látható, hogy a Crosstabs → Statistics párbeszédablakon a χ2 próba lefuttatásának kérése mellett ehhez a Phi és Cramér-féle V próba lefuttatását is bejelöltük). A Phi érték kiszámítása a χ2 érték mintaelemszámmal való elosztásából származik, majd az így kapott eredményből gyököt vonunk. Ha a vizsgált két kategória közül az egyik kettőnél több értéket is felvehet (lásd korábbi példánk, ahol a fejlődési skála lehetséges kimenetelét nem dichotóm módon fogalmaztuk meg, hanem több különböző értéket is definiáltunk (1) tipikus, (2) az első év folyamán fejlődési késést mutat, amit behoz, (3) az első három év folyamán mutat fejlődési késést, amit behoz stb) akkor a Phi helyett érdemesebb Cramér-féle kontingencia együtthatót számolni. Ilyen esetben a Phi sokszor hibásan 0 értéket vesz fel (vagyis az jelzi, mintha nem lenne kapcsolat a változók között). A Goodman és Kruskal-féle Lambda (λ) a Phi mutatóhoz hasonlóan 0-1 között adja meg a két kategoriálsi változó közötti kapcsolat erősségét. Ahol értelmeszerűen 0 azt jelenti, hogy a két változó független egymástól, az 1 pedig, hogy az egyik változó tökéletesen prediktálja a másikat (a Lambda együttható számításának kérése programunkon belül ugyanabban a párbeszéd ablakban adható meg, ahol a Khi2-próba számítását kérjük: Analyze → Descriptive Statistics → Crosstabs → Statistics).

Hatásnagyság számítása[szerkesztés | forrásszöveg szerkesztése]

Habár a Cramér-féle együtthatót is elfogadhatnánk a hatásnagyság adekvát mutatójának, a köztudatba mégis inkább az esélyhányados (odds ratio) került be. Különösen jól alkalmazható 2x2-es kontingencia táblázatoknál (nagyobbaknál nem ajánlatos). További előnye: a könnyű kiszámíthatóság. Melynek lényege, hogy elosztjuk egymással az összetartozó adatokat, majd ezek hányadosait szintén. A példánknál maradva, először kiszámítjuk a fejlődési skálánk becslésére vonatkozó adatokat Odds(pozitív jóslat – pozitív kimenet)= Fejlődési skálán OK – tipikusan fejlődők / Fejlődési skálán OK – de nem tipikusan fejlődők = 18/2 = 9

Odds(negatív jóslat – negatív kimenet)= Fejlődési skálán nem OK – atipikusan fejlődők / Fejlődési skálán nem OK – de tipikusan fejlődők = 24/6 = 4

Odds ratio(esélyhányados) = 9/4 = 2,25

Annak az esélye tehát, hogy valaki a jóslatnak megfelelően fejlődik majd 2,25-ször nagyobb mint az ellenkező lehetőségnek. Ahogy a példa is mutatja, az esélyhányados használata nagyon egyszerű és egyben rendkívül elegáns módja a kapott eredmények interpretálásának.

Hogyan jelenítsük meg publikációnkban a Khi2 próba eredményét?[szerkesztés | forrásszöveg szerkesztése]

Először is meg kell adnunk a teszt statisztika értékét, majd utána feltüntetjük zárójelben a szabadságfokot, végül a szigifikancia szintet, pl. χ2(1) = 25.36, p < .001. Ez esetben eredményünket úgy értelmezhetjük, hogy a fejlődési skálánk által jósolt és a valós fejlődési kimenet jelentős összefüggést mutatott.

Források[szerkesztés | forrásszöveg szerkesztése]

  • Cramer, D., & Howitt, D. (2004). The Sage Dictonary of Statistics. SAGE Publications.
  • Field, A. (2007). Discovering Statistics Using SPSS. Chapter 18 Categorical Data. SAGE Publications.
  • Vargha András (2000). Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó.