Kontingenciatáblázat

A kontingenciatáblázat (vagy kombinációs táblázat) a statisztikában egy olyan, mátrix formájú táblázat, amely a változók (többváltozós) gyakorisági eloszlását mutatja. A kontingencia táblázat kifejezés Karl Pearsontól származik, aki először a On the Theory of Contingency and Its Relation to Association and Normal Correlation című művében használta 1904-ben.

A többváltozós statisztika egyik központi problémája többdimenziós gyakorisági táblázatokban kódolt változók kapcsolatrendszerének vizsgálata. A feltételes függetlenségek egy részének feltárásával praktikusabbá tehető az adatok tárolása (Lauritzen, 2002).

Példa[szerkesztés]

Tegyük fel, hogy van két változónk: a nem (nő vagy férfi értékekkel) és a kezesség (balkezes vagy jobbkezes). Valamint tegyük fel, hogy veszünk egy 100 fős véletlen mintát egy nagy populációból egy olyan kutatás keretében, amely a kezességben megjelenő nemi különbségeket vizsgálja. Készíthetünk egy kontingenciatáblázatot annak a szemléltetésére, hogy az egyes csoportokban (jobbkezes férfi, balkezes férfi, jobbkezes nő, balkezes nő) hány fő található. Ez a kontingenciatáblázat látható a következő ábrán:

	Jobbkezes	Balkezes	Összes
Férfi	43	9	52
Nő	44	4	48
Összes	87	13	100

A soronként (férfiakra és nőkre) és oszloponként (jobbkezesekre és balkezesekre) összesített gyakoriságokat peremeloszlásnak nevezzük.

A táblázat lehetővé teszi, hogy azonnal megállapítsuk, a jobbkezesek aránya közel azonos a nők és a férfiak között, bár nem egyenlő. Az arányok közti különbség szignifikanciáját többféle statisztikai eljárással is tesztelhetjük, ilyenek a Pearson-féle khí-négyzet próba, a G-próba, a Fisher-féle egzakt próba, és a Barnard-próba, ha teljesül a feltétel, hogy a táblázatban megjelenő értékek a vizsgált populációból véletlen mintavétellel vett eseteket képviselnek. Ha a különböző oszlopokban szereplő arányok soronként szignifikánsan eltérnek egymástól (vagy fordítva), akkor a két változó nem független egymástól. Ha nincs ilyen eltérés, akkor viszont függetlenek.

A fenti a legegyszerűbb szerkezetű kontingencia táblára példa: mindkét változója csak kétértékű. Egy kontingencia táblázat felépítésében elméletben akármennyi sort és oszlopot használhatunk. Lehetséges a változók számát is kettő fölé növelni, de az így keletkező táblákat nehéz vizuálisan megjeleníteni. Ordinális változók egymás közti, vagy akár ordinális és kategoriális változók közötti kapcsolatot is ábrázolhatunk kontingencia táblában, bár ezt ritkán alkalmazzák.

Kapcsolatmérések[szerkesztés]

A két változó közötti kapcsolat erősségének vizsgálatára több együttható is alkalmas: a legegyszerűbb a phí (φ) együttható, amelynek képlete:

\phi ={\sqrt {\frac {\chi ^{2}}{N}}},

ahol a χ²-et a Pearson-féle khí-négyzet próbával kapjuk meg, az N pedig a mérések száma. A φ értéke 0 és 1 változhat, ahol a 0 a változók közti kapcsolat teljes hiányát, az 1 tökéletes együttjárást jeleznek a két változó között. Ez az együttható csak 2x2 elrendezésű gyakorisági táblákon alkalmazható. A φ értéke csak akkor éri el a maximális 1,00-ot, ha a sorok és oszlopok végén található peremeloszlások mind 0,50-dal egyenlőek (és két átlós cella üres).

A phí együtthatón kívül használhatunk többek között C kontingencia együtthatót és a Cramér-féle V-t. A C együttható használható 2x2-nél nagyobb léptékű kontingenciatáblákhoz is. Képlete:

C={\sqrt {\frac {\chi ^{2}}{N+\chi ^{2}}}}

A hátránya az, hogy a kapcsolat erősségének mérőszáma alapesetben nem érheti el az 1-et. 2x2-es tábla esetében 0,707 a legnagyobb elérhető érték, 4x4-nél pedig 0,870. Több kategóriát tartalmazó kontingenciatáblák esetében az együttható abszolút értéke tovább közelíthető 1-hez, de nem éri azt el. Ebből következően a C együttható nem alkalmas különböző kategóriaszámmal rendelkező táblák összehasonlításához, valamint aszimmetrikus táblázatokhoz (ahol a sorok és az oszlopok száma nem egyezik meg). Azonban a C-t leosztva a kifejezéssel, 1-re módosítható annak értéke tökéletes együttjárás esetén.

A Cramér-féle V együttható (vagy időnként Cramér-féle phi, φ_c) képlete:

$V={\sqrt {\frac {\chi ^{2}}{N(k-1)}}}$

ahol k a sorok vagy az oszlopok száma, attól függően, hogy melyik értéke kisebb. A Cramér-féle V két nominális változó közötti kapcsolat mérésére szolgáló statisztikai mérőszám, amely 0-tól 1-ig terjedő értékeket vehet fel. A Pearson-féle khí-négyzet próbán alapszik, Harald Cramér publikálta 1946-ban. A V értéke 2x2 kontingencia tábla esetén megegyezik a phí együtthatóval.

Források[szerkesztés]

Lauritzen, Steffen L.. Lectures on Contingency Tables, updated electronic version of the (University of Aalborg) 3rd (1989) (2002 electronic (1979, 1982, 1989))

Kapcsolódó szócikkek[szerkesztés]

Khí-négyzet próba

A Wikimédia Commons tartalmaz Kontingenciatáblázat témájú médiaállományokat.