Cohen-féle kappa

A Cohen-féle kappa együttható (κ) egy olyan statisztikai mérőeszköz, amely két megítélő közötti (illetve egy megítélőn belüli) megbízhatóságot méri kategorikus változók esetében.^[1]

Általánosságban véve robosztusabb eljárás, mint egy egyszerű százalékos megegyezésszámítás, mivel κ figyelembe veszi a megegyezések véletlenszerű bekövetkezésének lehetőségét is.

Történet[szerkesztés]

Az első kappa-féle statisztikai számítás Sir Francis Galton nevéhez fűződik (1892).^[2]

A kappát mint új statisztikai eljárást, Jacob Cohen publikálta az Educational and Psychological Measurement folyóiratban 1960-ban.^[3]

Definíció[szerkesztés]

A Cohen-féle kappa két értékelő közötti megegyezést (vagyis egyetértést) számítja ki, akik N tételt osztályoznak C kategóriába. A κ definíciója:

$\kappa \equiv {\frac {p_{o}-p_{e}}{1-p_{e}}}=1-{\frac {1-p_{o}}{1-p_{e}}},\!$

Ahol p_o a relatív megfigyelt megegyezés az értékelők között (azonos a pontossággal), és p_e a feltételezett valószínűsége a véletlen megegyezéseknek. Ha az értékelők teljes mértékben egyetértenek, akkor κ = 1. Ha nincs az értékelők között nagyobb egyetértés, mint amit a véletlen indokolna, akkor κ = 0. A kappa statisztikai értéke negatív is lehet, ami azt jelenti, hogy erős a nézeteltérés a két értékelő között, vagyis a megegyezések értéke rosszabb, mint ami véletlenszerűen előfordulna.^[4]

Abban az esetben, ha k a kategóriák számát jelöli, N a tételek számát, n_ki pedig azokat az eseteket, amikor i értékelő a k kategóriát választotta, az egyenlet így néz ki:

Például:

p_{e}={\frac {1}{N^{2}}}\sum _{k}n_{k1}n_{k2}

Ami a következő képletből származik:

p_{e}=\sum _{k}{\widehat {p_{k12}}}=\sum _{k}{\widehat {p_{k1}}}{\widehat {p_{k2}}}=\sum _{k}{\frac {n_{k1}}{N}}{\frac {n_{k2}}{N}}={\frac {1}{N^{2}}}\sum _{k}n_{k1}n_{k2}

Ahol ${\widehat {p_{k12}}}$ Pk₁₂ annak a becsült valószínűsége, hogy mind az első, mind a második értékelő ugyanazt az elemet osztályozza k-ként, míg ${\widehat {p_{k1}}}$ annak a becsült valószínűsége, hogy az 1-es értékelő k-ként kategorizálja az adott elemet (szintúgy a 2-es értékelő esetében is). A következő egyenlőség:

${\widehat {p_{k}}}=\sum _{k}{\widehat {p_{k1}}}{\widehat {p_{k2}}}$

azon a feltételezésen alapszik, hogy a két értékelő értékelése független egymástól.

Példák[szerkesztés]

Egyszerű példa[szerkesztés]

Tegyük fel, hogy Önnek egy adott támogatást megpályázó 50 személy adatait kell elemeznie. Minden javaslatot két értékelő olvasott el, és mindegyik értékelő “Igen”-nel vagy “Nem”-mel támogatta, illetve elutasította az adott pályázatot. Tegyük fel, hogy az eltérő értékelések számlálási adatai a következők voltak, ahol A és B értékelő, a mátrix főátlójára vonatkozó adatok (a és d) megegyezések száma és a fordított átlós adatok (b és c) a nézeteltérések száma:

		B
		Igen	Nem
A	Igen	a	b
A	Nem	c	d

A kappa egy olyan mutató, amely a megfigyelt megegyezések számát veti össze egy alapul vett megegyezési számmal. Az alapul vett megegyezési számot sok esetben úgy határozzák meg, mint a véletlen megegyezések értékét, azonban ez csak részben helyes megállapítás. Az alapul vett érték az a megegyezési mutató, amelyre a véletlenszerű osztályozás miatt számíthatunk, figyelembe véve a négyzet kontingencia táblázat határértékei által megadott mennyiségeket. Így kappa = 0, ha az osztályozások elosztása látszólag véletlenszerű, függetlenül a mennyiségi nézeteltéréstől, amelyet a marginális összegek korlátoznak. Ezért a kappa alapul vett értéke sok esetben inkább zavaró lehet, mint segítő értékű. Vegyük a következő példát:

		B
		Igen	Nem
A	Igen	20	5
A	Nem	10	15

A megegyezések értéke:

p_{o}={\frac {a+d}{a+b+c+d}}={\frac {20+15}{50}}=0.7

A p_e (véletlenszerű megegyezések valószínűsége) kiszámításához:

l “A” értékelő “Igen”-nel válaszolt 25 pályázatra és “Nem”-mel a másik 25 pályázatra. Tehát “A” 50%-ban válaszolt “Igen”-nel.

l “B” értékelő “Igen”-nel válaszolt 30 pályázatra és “Nem”-mel 20 pályázatra. Tehát “B” 60%-ban válaszolt “Igen”-nel.

Tehát az elvárható valószínűsége annak, hogy mindkét értékelő “Igen”-nel válaszol véletlenszerűen:

p_{\text{Yes}}={\frac {a+b}{a+b+c+d}}\cdot {\frac {a+c}{a+b+c+d}}=0.5\times 0.6=0.3

Illetve a “Nem” válaszok esetében:

p_{\text{No}}={\frac {c+d}{a+b+c+d}}\cdot {\frac {b+d}{a+b+c+d}}=0.5\times 0.4=0.2

A teljes véletlenszerű megegyezések valószínűsége az a valószínűség, hogy “Igen” válaszban vagy “Nem” válaszban megegyezett a két értékelő, vagyis:

p_{e}=p_{\text{Yes}}+p_{\text{No}}=0.3+0.2=0.5

Erre a Cohen-féle kappát alkalmazva ezt kapjuk:

\kappa ={\frac {p_{o}-p_{e}}{1-p_{e}}}={\frac {0.7-0.5}{1-0.5}}=0.4\!

Megegyező százalékok, de eltérő értékek[szerkesztés]

A Cohen-féle kappával kapcsolatban felmerülhet az a probléma, hogy a kappa érték nem megfelelően tükrözi a megegyező értékelések százalékos arányát. Ez olyan eseteknél fordul elő, ahol két értékelőpár megegyezése azonos százalékos arányt mutat, de az egyik értékelőpár hasonló számú értékelést ad egy-egy kategóriához, míg a másik értékelőpár nagyon eltérő számú értékelést ad egy-egy kategóriához.^[5] Az alábbi példákban a ”B” értékelőnek az első esetben 70 “Igen” és 30 “Nem” válasza van, de a másodikban ezek a számok megfordulnak. Például a következő két esetben egyenlő az egyetértés “A” és “B” között (60 mindkét esetben 100-ból) az egyes válaszkategóriákban való megegyezés szempontjából, ezért azt várnánk, hogy a Cohen-féle kappa relatív értékei ezt tükrözik.

Azonban a kappa értékeit kiszámítva nem ez látszik:

		B
		Igen	Nem
A	Igen	45	15
A	Nem	25	15

\kappa ={\frac {0.60-0.54}{1-0.54}}=0.1304

		B
		Igen	Nem
A	Igen	25	35
A	Nem	5	35

\kappa ={\frac {0.60-0.46}{1-0.46}}=0.2593

Ez azt mutatja, hogy nagyobb a hasonlóság “A” és “B” értékelő között a második esetben, mint az első esetben. Ennek oka, hogy bár a megegyezések százalékos aránya azonos, a véletlen megegyezések százaléka jóval magasabb az első esetben (0.54 a 0.46-hoz képest).

Tulajdonságok[szerkesztés]

Hipotézistesztelés és konfidenciaintervallum[szerkesztés]

A kappa p-értékéről ritkán számolnak be, valószínűleg azért, mert még a viszonylag alacsony kappa-értékek is szignifikánsnak tűnhetnek. Ez azt jelenti, hogy a megegyezések mintázata nagyobb értéket tükröz, mint amit véletlenszerű kategorizálással el lehet érni. Azonban nem elég, ha egy kappa érték nagyobb, mint a véletlenszerű kategorizáció által kapott érték; ennél általában nagyobb megegyezésre van szükség. A bevett gyakorlat szerint a 0.7 alatti kappa érték még nem tekinthető megfelelőnek, hiába szignifikáns.^[6] Joseph L. Fleiss és Jacob Cohen 1969-ben meghatározta a kappa standard hibáját is^[7] és ezt számos különböző számítógépes program ki is tudja számítani.^[8]

A kappa konfidenciaintervallumának kiszámításához a kívánt konfidenciaszint és a standard hiba szorzatát ki kell vonni a kappa értékéből. A leggyakoribb kívánt konfidenciaszint 95%, így az egyenlet 1.96 értéket használ a standard hiba szorzójaként. A konfidenciaintervallum kiszámítására szolgáló egyenlet a következő:

k − 1.96 × SE_k to k + 1.96 × SE_k

A kappa standard hibája (és a konfidenciaintervalluma) bootstrap eljárásokkal is kiszámítható.

Kappa nagyságát meghatározó tényezők[szerkesztés]

Ha a statisztikai szignifikancia nem hasznos útmutató, akkor a kappa milyen értéke tükrözi a megfelelő egyetértést?

Van néhány tényező, ami befolyásolhatja a kappa nagyságát és megnehezítheti az adott kappa-nagyság értelmezését. Mint Julius Sim és Chris C. Wright megjegyezte, két fontos tényező a prevalencia és az elfogultság. A prevalencia a kategóriák kiválasztásának relatív valószínűsége. Ha visszatérünk az első példához, az „Igen” kategória kiválasztásának valószínűségét az (a + b)/N és (a + c)/N átlagával lehet kiszámítani, míg a „Nem” kategóriáét a (c + d)/N és (b + d)/N átlagával. A két átlag különbözete adja meg a Prevalencia Indexet (PI). A prevalencia tehát hatással van a kappa értékére, mégpedig úgy, hogy minél nagyobb a PI értéke, annál kisebb a kappa-érték. Az elfogultság arra a jelenségre vonatkozik, hogy „A” és „B” megfigyelő eltérő gyakorisággal osztályoz egyes kategóriáknál. Ha ez megtörténik, akkor a két értékelőnél megfigyelhető marginális eloszlás egyenetlen lesz. Az Elfogultság Index megegyezik az „Igen válaszok arányának különbségével. Ennek kiszámítása a következő: (a + b)/N – (a + c)/N.”^[9]^[10]

Kappa maximum értéke[szerkesztés]

A Cohen-féle kappa akkor éri el a maximum értékét, az 1-et, amikor a két értékelő válaszai teljes mértékben megegyeznek, vagyis a sorok és oszlopok összegei azonosak. Ehhez képest bármilyen eltérés már nem tekinthető tökéletes megegyezésnek. κ maximum értékének képlete:^[11]

\kappa _{\max }={\frac {P_{\max }-P_{\exp }}{1-P_{\exp }}}

Korlátok[szerkesztés]

Összehasonlítás
		Referencia
		G	R
Összehasonlítás	G	1	14
Összehasonlítás	R	0	1

A nézeteltérések aránya 14/16 vagy 0.875. A nézeteltérés a mennyiség miatt jelentkezik, mivel az osztályozások elosztása optimális. A kappa értéke 0.01.

2. Összehasonlítás
		Referencia
		G	R
Összehasonlítás	G	0	1
Összehasonlítás	R	1	14

A nézeteltérések aránya 2/16 vagy 0.125. A nézeteltérés a felosztás miatt jelentkezik, mivel a mennyiségek megegyeznek. A kappa értéke -0.07.

Ebben az esetben fontos jelenteni a mennyiséget és felosztást is, mert a kappa értéke nem ad teljesen tiszta képet számunkra. Ezenkívül a kappa néhány kihívást vet fel a számításban és az értelmezésben, mert a kappa érték egy arány. Lehetséges, hogy a kappa aránya meghatározatlan értéket ad vissza a nevezőben szereplő nulla miatt. Ezenkívül egy arány nem fedi fel sem számlálóját, sem nevezőjét. A kutatók számára informatívabb, ha a nézeteltéréseket két komponensben, a mennyiségben és az elosztásban jelentik. Ez a két komponens egyértelműbben írja le a kategóriák közötti kapcsolatot, mint egy összefoglaló statisztikai érték.^[12]

Néhány kutató aggodalmát fejezte ki amiatt, hogy κ hajlamos a megfigyelt kategóriák gyakoriságát figyelmen kívül hagyni, ami megbízhatatlanná teheti az egyetértés mérését olyan helyzetekben, mint például ritka betegségek diagnosztizálása. Ezekben az esetekben a κ hajlamos alábecsülni a ritka kategóriára vonatkozó megegyezést.^[13]

Kapcsolódó statisztikai eljárások[szerkesztés]

Scott-féle Pi[szerkesztés]

Scott nevéhez fűződik a pi statisztika, ami annyiban különbözik a Cohen-féle kappától, hogy a p_e értéket másképp számítják.

Fleiss-féle kappa[szerkesztés]

A Cohen-féle kappával ellentétben, a Fleiss-féle kappa nem csak kettő, hanem több értékelő közötti megegyezés kiszámítására szolgál. A Feiss-séle kappa a Scott-féle pi többértékelős általánosítása, nem pedig a Cohen-féle kappáé.^[14]

Súlyozott kappa[szerkesztés]

A súlyozott kappa lehetővé teszi, hogy egyes nézeteltérések más súllyal rendelkezzenek. Három mátrix játszik szerepet ennél a kappánál: a megfigyelt adatok mátrixa, a véletlenszerű megegyezések elvárt mátrixa és a súlyozott mátrix.^[15]

A súlyozott κ képlete:

\kappa =1-{\frac {\sum _{i=1}^{k}\sum _{j=1}^{k}w_{ij}x_{ij}}{\sum _{i=1}^{k}\sum _{j=1}^{k}w_{ij}m_{ij}}}

Hivatkozások[szerkesztés]

↑ McHugh, Mary L. (2012). "Interrater reliability: The kappa statistic". Biochemia Medica. 22 (3): 276–282. doi:10.11613/bm.2012.031. PMC 3900052. PMID 23092060.
↑ Galton, F. (1892) Finger Prints Macmillan, London.
↑ Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement. 20 (1): 37–46. doi:10.1177/001316446002000104
↑ Sim, Julius; Wright, Chris C. (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257
↑ Kilem Gwet (May 2002). "Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity" (PDF). Statistical Methods for Inter-Rater Reliability Assessment. 2: 1–10.
↑ Bakeman, R.; Gottman, J.M. (1997). Observing interaction: An introduction to sequential analysis (2nd ed.). Cambridge, UK: Cambridge University Press. ISBN 978-0-521-27593-4.
↑ Fleiss, J.L.; Cohen, J.; Everitt, B.S. (1969). "Large sample standard errors of kappa and weighted kappa". Psychological Bulletin. 72 (5): 323–327. doi:10.1037/h0028106
↑ Robinson, B.F; Bakeman, R. (1998). "ComKappa: A Windows 95 program for calculating kappa and related statistics". Behavior Research Methods, Instruments, and Computers. 30(4): 731–732. doi:10.3758/BF03209495
↑ Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin Epidemiol. 1993 May;46(5):423-9. doi: 10.1016/0895-4356(93)90018-v. PMID: 8501467.
↑ Sim, J; Wright, C. C (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257
↑ Umesh, U. N.; Peterson, R.A.; Sauber M. H. (1989). "Interjudge agreement and the maximum value of kappa". Educational and Psychological Measurement. 49 (4): 835–850. doi:10.1177/001316448904900407
↑ Pontius, Robert; Millones, Marco (2011). "Death to Kappa: birth of quantity disagreement and allocation disagreement for accuracy assessment". International Journal of Remote Sensing. 32 (15): 4407–4429.
↑ Viera, Anthony J.; Garrett, Joanne M. (2005). "Understanding interobserver agreement: the kappa statistic". Family Medicine. 37 (5): 360–363.
↑ Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop.
↑ Cohen, J. (1968). "Weighed kappa: Nominal scale agreement with provision for scaled disagreement or partial credit". Psychological Bulletin.

Fordítás[szerkesztés]

Ez a szócikk részben vagy egészben a Cohen's kappa című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

[1] McHugh, Mary L. (2012). "Interrater reliability: The kappa statistic". Biochemia Medica. 22 (3): 276–282. doi:10.11613/bm.2012.031. PMC 3900052. PMID 23092060.

[2] Galton, F. (1892) Finger Prints Macmillan, London.

[3] Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement. 20 (1): 37–46. doi:10.1177/001316446002000104

[4] Sim, Julius; Wright, Chris C. (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257

[5] Kilem Gwet (May 2002). "Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity" (PDF). Statistical Methods for Inter-Rater Reliability Assessment. 2: 1–10.

[6] Bakeman, R.; Gottman, J.M. (1997). Observing interaction: An introduction to sequential analysis (2nd ed.). Cambridge, UK: Cambridge University Press. ISBN 978-0-521-27593-4.

[7] Fleiss, J.L.; Cohen, J.; Everitt, B.S. (1969). "Large sample standard errors of kappa and weighted kappa". Psychological Bulletin. 72 (5): 323–327. doi:10.1037/h0028106

[8] Robinson, B.F; Bakeman, R. (1998). "ComKappa: A Windows 95 program for calculating kappa and related statistics". Behavior Research Methods, Instruments, and Computers. 30(4): 731–732. doi:10.3758/BF03209495

[9] Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin Epidemiol. 1993 May;46(5):423-9. doi: 10.1016/0895-4356(93)90018-v. PMID: 8501467.

[10] Sim, J; Wright, C. C (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257

[11] Umesh, U. N.; Peterson, R.A.; Sauber M. H. (1989). "Interjudge agreement and the maximum value of kappa". Educational and Psychological Measurement. 49 (4): 835–850. doi:10.1177/001316448904900407

[12] Pontius, Robert; Millones, Marco (2011). "Death to Kappa: birth of quantity disagreement and allocation disagreement for accuracy assessment". International Journal of Remote Sensing. 32 (15): 4407–4429.

[13] Viera, Anthony J.; Garrett, Joanne M. (2005). "Understanding interobserver agreement: the kappa statistic". Family Medicine. 37 (5): 360–363.

[14] Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop.

[15] Cohen, J. (1968). "Weighed kappa: Nominal scale agreement with provision for scaled disagreement or partial credit". Psychological Bulletin.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]