Cohen-féle kappa

A Wikipédiából, a szabad enciklopédiából

A Cohen-féle kappa együttható (κ) egy olyan statisztikai mérőeszköz, amely két megítélő közötti (illetve egy megítélőn belüli) megbízhatóságot méri kategorikus változók esetében.[1]

Általánosságban véve robosztusabb eljárás, mint egy egyszerű százalékos megegyezésszámítás, mivel κ figyelembe veszi a megegyezések véletlenszerű bekövetkezésének lehetőségét is.

Történet[szerkesztés]

Az első kappa-féle statisztikai számítás Sir Francis Galton nevéhez fűződik (1892).[2]

A kappát mint új statisztikai eljárást, Jacob Cohen publikálta az Educational and Psychological Measurement folyóiratban 1960-ban.[3]

Definíció[szerkesztés]

A Cohen-féle kappa két értékelő közötti megegyezést (vagyis egyetértést) számítja ki, akik N tételt osztályoznak C kategóriába. A κ definíciója:

Ahol po a relatív megfigyelt megegyezés az értékelők között (azonos a pontossággal), és pe a feltételezett valószínűsége a véletlen megegyezéseknek. Ha az értékelők teljes mértékben egyetértenek, akkor κ = 1. Ha nincs az értékelők között nagyobb egyetértés, mint amit a véletlen indokolna, akkor κ = 0. A kappa statisztikai értéke negatív is lehet, ami azt jelenti, hogy erős a nézeteltérés a két értékelő között, vagyis a megegyezések értéke rosszabb, mint ami véletlenszerűen előfordulna.[4]

Abban az esetben, ha k a kategóriák számát jelöli, N a tételek számát, nki pedig azokat az eseteket, amikor i értékelő a k kategóriát választotta, az egyenlet így néz ki:

Például:

Ami a következő képletből származik:

Ahol Pk12 annak a becsült valószínűsége, hogy mind az első, mind a második értékelő ugyanazt az elemet osztályozza k-ként, míg annak a becsült valószínűsége, hogy az 1-es értékelő k-ként kategorizálja az adott elemet (szintúgy a 2-es értékelő esetében is). A következő egyenlőség:

azon a feltételezésen alapszik, hogy a két értékelő értékelése független egymástól.

Példák[szerkesztés]

Egyszerű példa[szerkesztés]

Tegyük fel, hogy Önnek egy adott támogatást megpályázó 50 személy adatait kell elemeznie. Minden javaslatot két értékelő olvasott el, és mindegyik értékelő “Igen”-nel vagy “Nem”-mel támogatta, illetve elutasította az adott pályázatot. Tegyük fel, hogy az eltérő értékelések számlálási adatai a következők voltak, ahol A és B értékelő, a mátrix főátlójára vonatkozó adatok (a és d) megegyezések száma és a fordított átlós adatok (b és c) a nézeteltérések száma:

B
Igen Nem
A Igen a b
Nem c d

A kappa egy olyan mutató, amely a megfigyelt megegyezések számát veti össze egy alapul vett megegyezési számmal. Az alapul vett megegyezési számot sok esetben úgy határozzák meg, mint a véletlen megegyezések értékét, azonban ez csak részben helyes megállapítás. Az alapul vett érték az a megegyezési mutató, amelyre a véletlenszerű osztályozás miatt számíthatunk, figyelembe véve a négyzet kontingencia táblázat határértékei által megadott mennyiségeket. Így kappa = 0, ha az osztályozások elosztása látszólag véletlenszerű, függetlenül a mennyiségi nézeteltéréstől, amelyet a marginális összegek korlátoznak. Ezért a kappa alapul vett értéke sok esetben inkább zavaró lehet, mint segítő értékű. Vegyük a következő példát:

B
Igen Nem
A Igen 20 5
Nem 10 15

A megegyezések értéke:

A pe  (véletlenszerű megegyezések valószínűsége) kiszámításához:

l  “A” értékelő “Igen”-nel válaszolt 25 pályázatra és “Nem”-mel a másik 25 pályázatra. Tehát “A” 50%-ban válaszolt “Igen”-nel.

l  “B” értékelő “Igen”-nel válaszolt 30 pályázatra és “Nem”-mel 20 pályázatra. Tehát “B” 60%-ban válaszolt “Igen”-nel.

Tehát az elvárható valószínűsége annak, hogy mindkét értékelő “Igen”-nel válaszol véletlenszerűen:

Illetve a “Nem” válaszok esetében:

A teljes véletlenszerű megegyezések valószínűsége az a valószínűség, hogy “Igen” válaszban vagy “Nem” válaszban megegyezett a két értékelő, vagyis:

Erre a Cohen-féle kappát alkalmazva ezt kapjuk:

Megegyező százalékok, de eltérő értékek[szerkesztés]

A Cohen-féle kappával kapcsolatban felmerülhet az a probléma, hogy a kappa érték nem megfelelően tükrözi a megegyező értékelések százalékos arányát. Ez olyan eseteknél fordul elő, ahol két értékelőpár megegyezése azonos százalékos arányt mutat, de az egyik értékelőpár hasonló számú értékelést ad egy-egy kategóriához, míg a másik értékelőpár nagyon eltérő számú értékelést ad egy-egy kategóriához.[5] Az alábbi példákban a ”B” értékelőnek az első esetben 70 “Igen” és 30 “Nem” válasza van, de a másodikban ezek a számok megfordulnak. Például a következő két esetben egyenlő az egyetértés “A” és “B” között (60 mindkét esetben 100-ból) az egyes válaszkategóriákban való megegyezés szempontjából, ezért azt várnánk, hogy a Cohen-féle kappa relatív értékei ezt tükrözik.

Azonban a kappa értékeit kiszámítva nem ez látszik:

B
Igen Nem
A Igen 45 15
Nem 25 15
B
Igen Nem
A Igen 25 35
Nem 5 35

Ez azt mutatja, hogy nagyobb a hasonlóság “A” és “B” értékelő között a második esetben, mint az első esetben. Ennek oka, hogy bár a megegyezések százalékos aránya azonos, a véletlen megegyezések százaléka jóval magasabb az első esetben (0.54 a 0.46-hoz képest).

Tulajdonságok[szerkesztés]

Hipotézistesztelés és konfidenciaintervallum[szerkesztés]

A kappa p-értékéről ritkán számolnak be, valószínűleg azért, mert még a viszonylag alacsony kappa-értékek is szignifikánsnak tűnhetnek. Ez azt jelenti, hogy a megegyezések mintázata nagyobb értéket tükröz, mint amit véletlenszerű kategorizálással el lehet érni. Azonban nem elég, ha egy kappa érték nagyobb, mint a véletlenszerű kategorizáció által kapott érték; ennél általában nagyobb megegyezésre van szükség. A bevett gyakorlat szerint a 0.7 alatti kappa érték még nem tekinthető megfelelőnek, hiába szignifikáns.[6] Joseph L. Fleiss és Jacob Cohen 1969-ben meghatározta a kappa standard hibáját is[7] és ezt számos különböző számítógépes program ki is tudja számítani.[8]

A kappa konfidenciaintervallumának kiszámításához a kívánt konfidenciaszint és a standard hiba szorzatát ki kell vonni a kappa értékéből. A leggyakoribb kívánt konfidenciaszint 95%, így az egyenlet 1.96 értéket használ a standard hiba szorzójaként. A konfidenciaintervallum kiszámítására szolgáló egyenlet a következő:

k − 1.96 × SEkto  k + 1.96 × SEk

A kappa standard hibája (és a konfidenciaintervalluma) bootstrap eljárásokkal is kiszámítható.

Kappa nagyságát meghatározó tényezők[szerkesztés]

Ha a statisztikai szignifikancia nem hasznos útmutató, akkor a kappa milyen értéke tükrözi a megfelelő egyetértést?

Van néhány tényező, ami befolyásolhatja a kappa nagyságát és megnehezítheti az adott kappa-nagyság értelmezését. Mint Julius Sim és Chris C. Wright megjegyezte, két fontos tényező a prevalencia és az elfogultság. A prevalencia a kategóriák kiválasztásának relatív valószínűsége. Ha visszatérünk az első példához, az „Igen” kategória kiválasztásának valószínűségét az (a + b)/N és (a + c)/N átlagával lehet kiszámítani,  míg a „Nem” kategóriáét a (c + d)/N és (b + d)/N átlagával. A két átlag különbözete adja meg a Prevalencia Indexet (PI). A prevalencia tehát hatással van a kappa értékére, mégpedig úgy, hogy minél nagyobb a PI értéke, annál kisebb a kappa-érték. Az elfogultság arra a jelenségre vonatkozik, hogy „A” és „B” megfigyelő eltérő gyakorisággal osztályoz egyes kategóriáknál. Ha ez megtörténik, akkor a két értékelőnél megfigyelhető marginális eloszlás egyenetlen lesz. Az Elfogultság Index megegyezik az „Igen válaszok arányának különbségével. Ennek kiszámítása a következő: (a + b)/N – (a + c)/N.”[9][10]

Kappa maximum értéke[szerkesztés]

A Cohen-féle kappa akkor éri el a maximum értékét, az 1-et, amikor a két értékelő válaszai teljes mértékben megegyeznek, vagyis a sorok és oszlopok összegei azonosak. Ehhez képest bármilyen eltérés már nem tekinthető tökéletes megegyezésnek. κ maximum értékének képlete:[11]

Korlátok[szerkesztés]

  1. Összehasonlítás
Referencia
G R
Összehasonlítás G 1 14
R 0 1

A nézeteltérések aránya 14/16 vagy 0.875. A nézeteltérés a mennyiség miatt jelentkezik, mivel az osztályozások elosztása optimális. A kappa értéke 0.01.

2. Összehasonlítás
Referencia
G R
Összehasonlítás G 0 1
R 1 14

A nézeteltérések aránya 2/16 vagy 0.125. A nézeteltérés a felosztás miatt jelentkezik, mivel a mennyiségek megegyeznek. A kappa értéke -0.07.

Ebben az esetben fontos jelenteni a mennyiséget és felosztást is, mert a kappa értéke nem ad teljesen tiszta képet számunkra. Ezenkívül a kappa néhány kihívást vet fel a számításban és az értelmezésben, mert a kappa érték egy arány. Lehetséges, hogy a kappa aránya meghatározatlan értéket ad vissza a nevezőben szereplő nulla miatt. Ezenkívül egy arány nem fedi fel sem számlálóját, sem nevezőjét. A kutatók számára informatívabb, ha a nézeteltéréseket két komponensben, a mennyiségben és az elosztásban jelentik. Ez a két komponens egyértelműbben írja le a kategóriák közötti kapcsolatot, mint egy összefoglaló statisztikai érték.[12]

Néhány kutató aggodalmát fejezte ki amiatt, hogy κ hajlamos a megfigyelt kategóriák gyakoriságát figyelmen kívül hagyni, ami megbízhatatlanná teheti az egyetértés mérését olyan helyzetekben, mint például ritka betegségek diagnosztizálása. Ezekben az esetekben a κ hajlamos alábecsülni a ritka kategóriára vonatkozó megegyezést.[13]

Kapcsolódó statisztikai eljárások[szerkesztés]

Scott-féle Pi[szerkesztés]

Scott nevéhez fűződik a pi statisztika, ami annyiban különbözik a Cohen-féle kappától, hogy a pe értéket másképp számítják.

Fleiss-féle kappa[szerkesztés]

A Cohen-féle kappával ellentétben, a Fleiss-féle kappa nem csak kettő, hanem több értékelő közötti megegyezés kiszámítására szolgál. A Feiss-séle kappa a Scott-féle pi többértékelős általánosítása, nem pedig a Cohen-féle kappáé.[14]

Súlyozott kappa[szerkesztés]

A súlyozott kappa lehetővé teszi, hogy egyes nézeteltérések más súllyal rendelkezzenek. Három mátrix játszik szerepet ennél a kappánál: a megfigyelt adatok mátrixa, a véletlenszerű megegyezések elvárt mátrixa és a súlyozott mátrix.[15]

A súlyozott κ képlete:

Hivatkozások[szerkesztés]

  1. McHugh, Mary L. (2012). "Interrater reliability: The kappa statistic". Biochemia Medica. 22 (3): 276–282. doi:10.11613/bm.2012.031. PMC 3900052. PMID 23092060.
  2. Galton, F. (1892) Finger Prints Macmillan, London.
  3. Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement. 20 (1): 37–46. doi:10.1177/001316446002000104
  4. Sim, Julius; Wright, Chris C. (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257
  5. Kilem Gwet (May 2002). "Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity" (PDF). Statistical Methods for Inter-Rater Reliability Assessment. 2: 1–10.
  6. Bakeman, R.; Gottman, J.M. (1997). Observing interaction: An introduction to sequential analysis (2nd ed.). Cambridge, UK: Cambridge University Press. ISBN 978-0-521-27593-4.
  7. Fleiss, J.L.; Cohen, J.; Everitt, B.S. (1969). "Large sample standard errors of kappa and weighted kappa". Psychological Bulletin. 72 (5): 323–327. doi:10.1037/h0028106
  8. Robinson, B.F; Bakeman, R. (1998). "ComKappa: A Windows 95 program for calculating kappa and related statistics". Behavior Research Methods, Instruments, and Computers. 30(4): 731–732. doi:10.3758/BF03209495
  9. Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin Epidemiol. 1993 May;46(5):423-9. doi: 10.1016/0895-4356(93)90018-v. PMID: 8501467.
  10. Sim, J; Wright, C. C (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257
  11. Umesh, U. N.; Peterson, R.A.; Sauber M. H. (1989). "Interjudge agreement and the maximum value of kappa". Educational and Psychological Measurement. 49 (4): 835–850. doi:10.1177/001316448904900407
  12. Pontius, Robert; Millones, Marco (2011). "Death to Kappa: birth of quantity disagreement and allocation disagreement for accuracy assessment". International Journal of Remote Sensing. 32 (15): 4407–4429.
  13. Viera, Anthony J.; Garrett, Joanne M. (2005). "Understanding interobserver agreement: the kappa statistic". Family Medicine. 37 (5): 360–363.
  14. Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop.
  15. Cohen, J. (1968). "Weighed kappa: Nominal scale agreement with provision for scaled disagreement or partial credit". Psychological Bulletin.

Fordítás[szerkesztés]

Ez a szócikk részben vagy egészben a Cohen's kappa című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.