Cohen-féle kappa
A Cohen-féle kappa együttható (κ) egy olyan statisztikai mérőeszköz, amely két megítélő közötti (illetve egy megítélőn belüli) megbízhatóságot méri kategorikus változók esetében.[1]
Általánosságban véve robosztusabb eljárás, mint egy egyszerű százalékos megegyezésszámítás, mivel κ figyelembe veszi a megegyezések véletlenszerű bekövetkezésének lehetőségét is.
Történet
[szerkesztés]Az első kappa-féle statisztikai számítás Sir Francis Galton nevéhez fűződik (1892).[2]
A kappát mint új statisztikai eljárást, Jacob Cohen publikálta az Educational and Psychological Measurement folyóiratban 1960-ban.[3]
Definíció
[szerkesztés]A Cohen-féle kappa két értékelő közötti megegyezést (vagyis egyetértést) számítja ki, akik N tételt osztályoznak C kategóriába. A κ definíciója:
Ahol po a relatív megfigyelt megegyezés az értékelők között (azonos a pontossággal), és pe a feltételezett valószínűsége a véletlen megegyezéseknek. Ha az értékelők teljes mértékben egyetértenek, akkor κ = 1. Ha nincs az értékelők között nagyobb egyetértés, mint amit a véletlen indokolna, akkor κ = 0. A kappa statisztikai értéke negatív is lehet, ami azt jelenti, hogy erős a nézeteltérés a két értékelő között, vagyis a megegyezések értéke rosszabb, mint ami véletlenszerűen előfordulna.[4]
Abban az esetben, ha k a kategóriák számát jelöli, N a tételek számát, nki pedig azokat az eseteket, amikor i értékelő a k kategóriát választotta, az egyenlet így néz ki:
Például:
Ami a következő képletből származik:
Ahol Pk12 annak a becsült valószínűsége, hogy mind az első, mind a második értékelő ugyanazt az elemet osztályozza k-ként, míg annak a becsült valószínűsége, hogy az 1-es értékelő k-ként kategorizálja az adott elemet (szintúgy a 2-es értékelő esetében is). A következő egyenlőség:
azon a feltételezésen alapszik, hogy a két értékelő értékelése független egymástól.
Példák
[szerkesztés]Egyszerű példa
[szerkesztés]Tegyük fel, hogy Önnek egy adott támogatást megpályázó 50 személy adatait kell elemeznie. Minden javaslatot két értékelő olvasott el, és mindegyik értékelő “Igen”-nel vagy “Nem”-mel támogatta, illetve elutasította az adott pályázatot. Tegyük fel, hogy az eltérő értékelések számlálási adatai a következők voltak, ahol A és B értékelő, a mátrix főátlójára vonatkozó adatok (a és d) megegyezések száma és a fordított átlós adatok (b és c) a nézeteltérések száma:
B | |||
---|---|---|---|
Igen | Nem | ||
A | Igen | a | b |
Nem | c | d |
A kappa egy olyan mutató, amely a megfigyelt megegyezések számát veti össze egy alapul vett megegyezési számmal. Az alapul vett megegyezési számot sok esetben úgy határozzák meg, mint a véletlen megegyezések értékét, azonban ez csak részben helyes megállapítás. Az alapul vett érték az a megegyezési mutató, amelyre a véletlenszerű osztályozás miatt számíthatunk, figyelembe véve a négyzet kontingencia táblázat határértékei által megadott mennyiségeket. Így kappa = 0, ha az osztályozások elosztása látszólag véletlenszerű, függetlenül a mennyiségi nézeteltéréstől, amelyet a marginális összegek korlátoznak. Ezért a kappa alapul vett értéke sok esetben inkább zavaró lehet, mint segítő értékű. Vegyük a következő példát:
B | |||
---|---|---|---|
Igen | Nem | ||
A | Igen | 20 | 5 |
Nem | 10 | 15 |
A megegyezések értéke:
A pe (véletlenszerű megegyezések valószínűsége) kiszámításához:
l “A” értékelő “Igen”-nel válaszolt 25 pályázatra és “Nem”-mel a másik 25 pályázatra. Tehát “A” 50%-ban válaszolt “Igen”-nel.
l “B” értékelő “Igen”-nel válaszolt 30 pályázatra és “Nem”-mel 20 pályázatra. Tehát “B” 60%-ban válaszolt “Igen”-nel.
Tehát az elvárható valószínűsége annak, hogy mindkét értékelő “Igen”-nel válaszol véletlenszerűen:
Illetve a “Nem” válaszok esetében:
A teljes véletlenszerű megegyezések valószínűsége az a valószínűség, hogy “Igen” válaszban vagy “Nem” válaszban megegyezett a két értékelő, vagyis:
Erre a Cohen-féle kappát alkalmazva ezt kapjuk:
Megegyező százalékok, de eltérő értékek
[szerkesztés]A Cohen-féle kappával kapcsolatban felmerülhet az a probléma, hogy a kappa érték nem megfelelően tükrözi a megegyező értékelések százalékos arányát. Ez olyan eseteknél fordul elő, ahol két értékelőpár megegyezése azonos százalékos arányt mutat, de az egyik értékelőpár hasonló számú értékelést ad egy-egy kategóriához, míg a másik értékelőpár nagyon eltérő számú értékelést ad egy-egy kategóriához.[5] Az alábbi példákban a ”B” értékelőnek az első esetben 70 “Igen” és 30 “Nem” válasza van, de a másodikban ezek a számok megfordulnak. Például a következő két esetben egyenlő az egyetértés “A” és “B” között (60 mindkét esetben 100-ból) az egyes válaszkategóriákban való megegyezés szempontjából, ezért azt várnánk, hogy a Cohen-féle kappa relatív értékei ezt tükrözik.
Azonban a kappa értékeit kiszámítva nem ez látszik:
B | |||
---|---|---|---|
Igen | Nem | ||
A | Igen | 45 | 15 |
Nem | 25 | 15 |
B | |||
---|---|---|---|
Igen | Nem | ||
A | Igen | 25 | 35 |
Nem | 5 | 35 |
Ez azt mutatja, hogy nagyobb a hasonlóság “A” és “B” értékelő között a második esetben, mint az első esetben. Ennek oka, hogy bár a megegyezések százalékos aránya azonos, a véletlen megegyezések százaléka jóval magasabb az első esetben (0.54 a 0.46-hoz képest).
Tulajdonságok
[szerkesztés]Hipotézistesztelés és konfidenciaintervallum
[szerkesztés]A kappa p-értékéről ritkán számolnak be, valószínűleg azért, mert még a viszonylag alacsony kappa-értékek is szignifikánsnak tűnhetnek. Ez azt jelenti, hogy a megegyezések mintázata nagyobb értéket tükröz, mint amit véletlenszerű kategorizálással el lehet érni. Azonban nem elég, ha egy kappa érték nagyobb, mint a véletlenszerű kategorizáció által kapott érték; ennél általában nagyobb megegyezésre van szükség. A bevett gyakorlat szerint a 0.7 alatti kappa érték még nem tekinthető megfelelőnek, hiába szignifikáns.[6] Joseph L. Fleiss és Jacob Cohen 1969-ben meghatározta a kappa standard hibáját is[7] és ezt számos különböző számítógépes program ki is tudja számítani.[8]
A kappa konfidenciaintervallumának kiszámításához a kívánt konfidenciaszint és a standard hiba szorzatát ki kell vonni a kappa értékéből. A leggyakoribb kívánt konfidenciaszint 95%, így az egyenlet 1.96 értéket használ a standard hiba szorzójaként. A konfidenciaintervallum kiszámítására szolgáló egyenlet a következő:
k − 1.96 × SEk to k + 1.96 × SEk
A kappa standard hibája (és a konfidenciaintervalluma) bootstrap eljárásokkal is kiszámítható.
Kappa nagyságát meghatározó tényezők
[szerkesztés]Ha a statisztikai szignifikancia nem hasznos útmutató, akkor a kappa milyen értéke tükrözi a megfelelő egyetértést?
Van néhány tényező, ami befolyásolhatja a kappa nagyságát és megnehezítheti az adott kappa-nagyság értelmezését. Mint Julius Sim és Chris C. Wright megjegyezte, két fontos tényező a prevalencia és az elfogultság. A prevalencia a kategóriák kiválasztásának relatív valószínűsége. Ha visszatérünk az első példához, az „Igen” kategória kiválasztásának valószínűségét az (a + b)/N és (a + c)/N átlagával lehet kiszámítani, míg a „Nem” kategóriáét a (c + d)/N és (b + d)/N átlagával. A két átlag különbözete adja meg a Prevalencia Indexet (PI). A prevalencia tehát hatással van a kappa értékére, mégpedig úgy, hogy minél nagyobb a PI értéke, annál kisebb a kappa-érték. Az elfogultság arra a jelenségre vonatkozik, hogy „A” és „B” megfigyelő eltérő gyakorisággal osztályoz egyes kategóriáknál. Ha ez megtörténik, akkor a két értékelőnél megfigyelhető marginális eloszlás egyenetlen lesz. Az Elfogultság Index megegyezik az „Igen válaszok arányának különbségével. Ennek kiszámítása a következő: (a + b)/N – (a + c)/N.”[9][10]
Kappa maximum értéke
[szerkesztés]A Cohen-féle kappa akkor éri el a maximum értékét, az 1-et, amikor a két értékelő válaszai teljes mértékben megegyeznek, vagyis a sorok és oszlopok összegei azonosak. Ehhez képest bármilyen eltérés már nem tekinthető tökéletes megegyezésnek. κ maximum értékének képlete:[11]
Korlátok
[szerkesztés]Referencia | |||
---|---|---|---|
G | R | ||
Összehasonlítás | G | 1 | 14 |
R | 0 | 1 |
A nézeteltérések aránya 14/16 vagy 0.875. A nézeteltérés a mennyiség miatt jelentkezik, mivel az osztályozások elosztása optimális. A kappa értéke 0.01.
Referencia | |||
---|---|---|---|
G | R | ||
Összehasonlítás | G | 0 | 1 |
R | 1 | 14 |
A nézeteltérések aránya 2/16 vagy 0.125. A nézeteltérés a felosztás miatt jelentkezik, mivel a mennyiségek megegyeznek. A kappa értéke -0.07.
Ebben az esetben fontos jelenteni a mennyiséget és felosztást is, mert a kappa értéke nem ad teljesen tiszta képet számunkra. Ezenkívül a kappa néhány kihívást vet fel a számításban és az értelmezésben, mert a kappa érték egy arány. Lehetséges, hogy a kappa aránya meghatározatlan értéket ad vissza a nevezőben szereplő nulla miatt. Ezenkívül egy arány nem fedi fel sem számlálóját, sem nevezőjét. A kutatók számára informatívabb, ha a nézeteltéréseket két komponensben, a mennyiségben és az elosztásban jelentik. Ez a két komponens egyértelműbben írja le a kategóriák közötti kapcsolatot, mint egy összefoglaló statisztikai érték.[12]
Néhány kutató aggodalmát fejezte ki amiatt, hogy κ hajlamos a megfigyelt kategóriák gyakoriságát figyelmen kívül hagyni, ami megbízhatatlanná teheti az egyetértés mérését olyan helyzetekben, mint például ritka betegségek diagnosztizálása. Ezekben az esetekben a κ hajlamos alábecsülni a ritka kategóriára vonatkozó megegyezést.[13]
Kapcsolódó statisztikai eljárások
[szerkesztés]Scott-féle Pi
[szerkesztés]Scott nevéhez fűződik a pi statisztika, ami annyiban különbözik a Cohen-féle kappától, hogy a pe értéket másképp számítják.
Fleiss-féle kappa
[szerkesztés]A Cohen-féle kappával ellentétben, a Fleiss-féle kappa nem csak kettő, hanem több értékelő közötti megegyezés kiszámítására szolgál. A Feiss-séle kappa a Scott-féle pi többértékelős általánosítása, nem pedig a Cohen-féle kappáé.[14]
Súlyozott kappa
[szerkesztés]A súlyozott kappa lehetővé teszi, hogy egyes nézeteltérések más súllyal rendelkezzenek. Három mátrix játszik szerepet ennél a kappánál: a megfigyelt adatok mátrixa, a véletlenszerű megegyezések elvárt mátrixa és a súlyozott mátrix.[15]
A súlyozott κ képlete:
Hivatkozások
[szerkesztés]- ↑ McHugh, Mary L. (2012). "Interrater reliability: The kappa statistic". Biochemia Medica. 22 (3): 276–282. doi:10.11613/bm.2012.031. PMC 3900052. PMID 23092060.
- ↑ Galton, F. (1892) Finger Prints Macmillan, London.
- ↑ Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement. 20 (1): 37–46. doi:10.1177/001316446002000104
- ↑ Sim, Julius; Wright, Chris C. (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257
- ↑ Kilem Gwet (May 2002). "Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity" (PDF). Statistical Methods for Inter-Rater Reliability Assessment. 2: 1–10.
- ↑ Bakeman, R.; Gottman, J.M. (1997). Observing interaction: An introduction to sequential analysis (2nd ed.). Cambridge, UK: Cambridge University Press. ISBN 978-0-521-27593-4.
- ↑ Fleiss, J.L.; Cohen, J.; Everitt, B.S. (1969). "Large sample standard errors of kappa and weighted kappa". Psychological Bulletin. 72 (5): 323–327. doi:10.1037/h0028106
- ↑ Robinson, B.F; Bakeman, R. (1998). "ComKappa: A Windows 95 program for calculating kappa and related statistics". Behavior Research Methods, Instruments, and Computers. 30(4): 731–732. doi:10.3758/BF03209495
- ↑ Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin Epidemiol. 1993 May;46(5):423-9. doi: 10.1016/0895-4356(93)90018-v. PMID: 8501467.
- ↑ Sim, J; Wright, C. C (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257
- ↑ Umesh, U. N.; Peterson, R.A.; Sauber M. H. (1989). "Interjudge agreement and the maximum value of kappa". Educational and Psychological Measurement. 49 (4): 835–850. doi:10.1177/001316448904900407
- ↑ Pontius, Robert; Millones, Marco (2011). "Death to Kappa: birth of quantity disagreement and allocation disagreement for accuracy assessment". International Journal of Remote Sensing. 32 (15): 4407–4429.
- ↑ Viera, Anthony J.; Garrett, Joanne M. (2005). "Understanding interobserver agreement: the kappa statistic". Family Medicine. 37 (5): 360–363.
- ↑ Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop.
- ↑ Cohen, J. (1968). "Weighed kappa: Nominal scale agreement with provision for scaled disagreement or partial credit". Psychological Bulletin.
Fordítás
[szerkesztés]Ez a szócikk részben vagy egészben a Cohen's kappa című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.