Megítélők közötti megbízhatóság

A statisztikában a megítélői megbízhatóság, a megítélők közötti egyetértés vagy a konkordancia, az értékelők közötti egyetértés mértékét jelenti. Megadja annak az értékét, hogy mekkora konszenzus van a bírák által adott ítéletek között. Használható például arra, hogy finomítsunk azokon az értékelő eszközökön, amiket emberek használnak és értékelnek saját szempontjaik szerint, például segíthet annak megvizsgálásában, hogy egy adott skála megfelelő mérőeszköze-e egy adott változónak. Ha különböző értékelők nem értenek egyet, akkor vagy a skála hibás vagy az értékelőket kell újra betanítani, vagy az értékelési szempontok nem egyértelműek.

Számos statisztikát használhatunk a megítélői megbízhatóság meghatározására. Különböző statisztikák különböző mérési típusok számára lehetnek megfelelőek. Néhány opció ezek közül az egyetértés kapcsolt valószínűsége, a Cohen-féle kappa, Scott pi értéke és a hozzá kapcsolódó Fleiss Kappa, a megítélők közötti korreláció, az együttjárási korrelációs együttható valamint az osztályon belüli (intra-class) korreláció.

A megítélői egyet nem értés forrásai[szerkesztés]

Minden olyan feladatban, ahol több értékelőt használnak, számítani lehet arra, hogy az értékelők nem fognak egyet érteni a megfigyelt célponttal kapcsolatban. Ezzel szemben olyan helyzetekben, ahol egyértelmű a mérés, mint egy egyszerű számlálási feladat (például egy adott üzletbe belépő potenciális vásárlók száma), nincs szükség a megbízhatóság ellenőrzésére, így egy személy is kielégítő értékelést adhat anélkül, hogy meg kéne kérdőjeleznünk az eredmények megbízhatóságát. Azoknál a méréseknél, ahol kétértelműség léphet fel amiatt, hogy ez egyes értékelők figyelmét milyen tényezők keltik fel saját érdeklődési sajátságaik miatt a célinger megfigyelése során, a csupán egy személy által adott értékeléshez képest kevésbé torzult adatokat lehet kapni több előre betanított értékelő használatával, illetve ha több személy végzi a megítélést akkor a tőlük származó adatok között mutatkozó eltérések rámutathatnak a módszer hibáira is. Ezek a mérések gyakran valamilyen szubjektív, minőségi megítélést jelentenek (például egy orvos modorának megítélése, egy tanú hitelességének megítélése az esküdtszék által, vagy egy előadó előadói készsége), de akár objektív értékelési kritériumok esetén is jelentkezhet ez a probléma.

Az értékelő mérésekben lévő hiba variancia forrásának egyik példája az értékelők közötti variáció a mérési eljárásokban. Pontosan meghatározott irányvonalak szükségesek az értékelésekkel kapcsolatban ahhoz, hogy megbízható eredményeket kaphassunk kétértelmű vagy kihívást jelentő mérési esetekben, ezek a pontozási irányvonalak. Pontozási irányvonalak nélkül az értékelést megnövekedett mértékben befolyásolná a kísérletező torzítása, vagyis az a tendencia, hogy az értékelési pontszámok az értékelő által várt érték felé sodródjanak. Olyan folyamatok során amik ismételt mérést tartalmaznak, az értékelői sodrás (az a jelenség, amikor az értékelő viselkedése, tehát az általa adott értékelések eltérőek a tesztek több alkalommal történő felvétele során^[1]) rendszeres újra tanítással válik kezelhetővé, ami biztosítja, hogy az értékelők értik az irányvonalakat és a mérés céljait és saját válaszaikban konzisztensek.

A megítélői egyetértés filozófiája[szerkesztés]

Több olyan definíciója^[2] is van a „megítélői megbízhatóságnak”, amit a különböző Felügyelő Bizottságok használnak. Ezek azokat a különböző nézőpontokat tükrözik, hogy mi is számít megbízható egyetértésnek az értékelők között.

Az egyetértésnek három műveleti definíciója van:

1. A megbízható értékelők egyetértenek a teljesítmény „hivatalos” értékelésével.

2. A megbízható értékelők egyetértenek egymással abban, hogy egy adott teljesítményhez pontosan milyen értékelést kell rendelni.

3. A megbízható értékelők egyetértenek abban, hogy melyik teljesítmény jobb és melyik rosszabb.

Statisztika[szerkesztés]

Az egyetértés kapcsolt valószínűsége[szerkesztés]

Az egyetértés kapcsolt valószínűsége a legegyszerűbb és a legkevésbé robusztus módszer. Úgy becsüljük, mint annak a százalékos aránya ahányszor az értékelők egyetértenek egy nominális vagy kategoriális értékelési rendszerben. Nem számol viszont azzal, hogy az egyetértés pusztán a véletlen következménye is lehet. Vannak viták arról, hogy szükséges-e „korrigálni” a véletlen egyetértést; néhányan azt javasolják, hogy mindenesetre egy ilyen korrekciót egy olyan explicit modellre kéne alapozni, ami pontosan meghatározná, hogy a véletlen és a hibák hogyan befolyásolják az értékelők döntését.^[3]

Mikor a használt kategóriák száma kicsi (például 2 vagy 3), akkor annak az esélye, hogy két értékelő teljesen véletlenül ért egyet, drámaian megnövekszik. Ez növelheti a teljes egyetértési rátát, ugyanakkor nincs szükségszerűen hatással a „belső” egyetértésre való hajlamra (egy egyetértés akkor számít „belsőnek” ha nem véletlen folytán következett be). Emiatt az egyetértés kapcsolt valószínűsége akkor is magas marad, ha nincs „belső” egyetértés az értékelők között.^[4] Egy hasznos megítélői megbízhatósági együtthatótól azt várjuk, hogy (a) nullához közeli legyen amikor nincs „belső” egyetértés, és (b) növekedjen ahogy a „belső” egyetértés növekszik. A legtöbb véletlenszerűségre is korrigált együttjárási együttható megfelel az első célkitűzésnek.^[5] Ugyanakkor a második célkitűzésnek semmilyen ismert véletlenszerűségre korrigált módszer sem tesz eleget.^[6]

Kappa-statisztika[szerkesztés]

A Cohen-féle kappa,^[7] ami két értékelő esetében működik, és a Fleiss-féle kappa,^[8] egy adaptáció ami bármilyen rögzített számú értékelő esetében működőképes, abban javítanak a kapcsolt egyetértési valószínűségen, hogy figyelembe veszik a véletlen folytán előálló egyetértés várható mértékét. Attól a problémától szenvednek viszont, hogy feltételezik az adatok nominális természetét és hogy az értékeléseknek nincs természetes sorrendje. Ha az adatoknak mégis van sorrendje, akkor a mérésből származó információ nincs teljesen kihasználva.

Korrelációs együtthatók[szerkesztés]

Pearson r {\displaystyle r} r-je, Kendall T-je, vagy Spearman p-je is használható arra, hogy megmérjük az értékelők között páronkénti korrelációt egy olyan skálát használva, aminek van sorrendje. Pearson azt feltételezi, hogy az értékelő skála folytonos; a Kendall és a Spearman statisztikák csak azt, hogy legalább ordinális. Ha több, mint két értékelőről beszélünk, akkor a csoport egyetértési szintjének átlaga kiszámolható minden lehetséges értékelőpáros r, T, vagy p értékének átlagából.

Osztályon belüli korrelációs együttható[szerkesztés]

Egy másik módja a megbízhatóság tesztelésének az osztályon belüli korrelációs együttható^[9] (ICC: intra-class correlation coefficient). Ennek többféle változata is van. Az egyiket úgy definiálhatjuk, mint „egy megfigyelés varianciájának azon aránya ami a valós pontszámokban mutatkozik meg az alanyok közötti variabilitás miatt".^[10] Az ICC 0 és 1 közötti értéket vehet fel (egy korábbi definíció szerint az ICC -1 és +1 közé eshetett). Az ICC akkor lesz magas ha kicsi a variáció az egyes itemekre az értékelők által adott értékelések között, például ha minden értékelő ugyanazt, vagy nagyon hasonló pontot ad minden itemre. Az ICC annyiban jobb Pearson r-jénél és Spearman p-jénél, hogy figyelembe veszi az egyes különálló egységekben megjelenő különbségeket, valamint az értékelők közötti korrelációt is.

Az egyetértés határai[szerkesztés]

Az egyetértés egy másik megközelítése (ami akkor hasznos amikor csak két értékelő van és a skála folytonos), hogy kiszámoljuk a különbséget a két értékelő minden egyes megfigyelési párja között. Ezeknek a különbségeknek az átlaga a torzítás, a referenciaintervallum (átlag +/- 1.96 x tapasztalati szórás) pedig az egyetértés határai. Az egyetértés határai bepillantást enged abba, hogy mennyi véletlen variáció befolyásolhatja az értékeléseket. Ha az értékelők az egyetértésre hajlamosak, akkor az értékelők megfigyelési közötti különbségek nullához közeliek lesznek. Ha az egyik értékelő általában magasabb vagy alacsonyabb értéket ad a másiknak egy konstans értékkel, akkor a torzítás (különbségek átlaga) nullától különböző lesz. Ha az értékelők az egyet nem értésre hajlamosabbak inkább, de anélkül hogy bármilyen konzisztens minta lenne abban, hogy magasabb vagy alacsonyabb értéket adnak a másiknál, akkor az átlag nullához közeli lesz, viszont a határok távol lesznek egymástól. Konfidencia határokat (általában 95%) lehet számolni mind a torzításra mind pedig a két egyetértési határra.

Több formula is létezik, amivel kiszámíthatjuk az egyetértés határait. Az egyszerű képlet, ami az előző bekezdésben volt megadva, és ami jól működik 60-nál nagyobb mintaszám esetén a következő:

${\bar {x}}\pm 1.96s$

Azonban a legpontosabb képlet (ami alkalmazható bármilyen elemszám esetén):

${\bar {x}}\pm t_{0.05,n-1}s{\sqrt {1+{\frac {1}{n}}}}$

Bland és Altman^[11] továbbfejlesztették ezt az ötletet azáltal, hogy ábrázolták minden egyes pont különbségét, a különbség átlagát és az egyetértés határait függőlegesen a két érték átlagának vízszintes megjelenítésével szemben. Az ebből származó Bland-Altman ábra nem csak a teljes egyetértést ábrázolja hanem azt is, hogy az egyetértés és az item alapjául szolgáló érték között van-e kapcsolat. Például két értékelő hasonlóan megfigyeléseket tehet kis itemek méretének értékelésekor, nagyobb itemek esetében azonban már eltérő a véleményük.

Amikor két mérési metódust összehasonlítunk nem csak az a fontos, hogy megbecsüljük a torzítást és az egyetértés határait a két módszer (megítélők közötti egyetértés) tekintetében, hanem az is, hogy felmérjük ugyanezen mutatókat mindkét módszer esetében külön külön is (megítélőn belüli egyetértés). Megtörténhet, hogy két eljárás között egyszerűen azért alacsony az egyetértés, mert az egyik módszernek széles egyetértési határai vannak, a másiknak pedig szűkek. Ebben az esetben a szűk egyetértési határokkal rendelkező módszer statisztikai szempontból nézve jobb lenne, miközben gyakorlati vagy más megfontolások megváltoztathatják ezt. Hogy mik számítanak szűk vagy tág egyetértési határoknak, nagy vagy kicsi torzításnak, az minden esetben gyakorlati megítélés kérdése.

Krippendorff Alpha értéke[szerkesztés]

A Krippendorff Alpha^[12] egy sokoldalú statisztika, ami felméri az elért egyetértést olyan megfigyelők között akik kategorizálnak, kiértékelnek vagy mérnek egy adott tárgycsoportot a változók értékeinek tekintetében. Általánosít több specializált egyetértési együtthatót azáltal, hogy bármilyen számú megfigyelő esetén használható, alkalmazható nominális, ordinális, intervallum és arány skálás mérések esetén is, képes kezelni ha hiányzó adatok vannak, és korrigálva van alacsony mintaszámokra is. Az Alpha a tartalomelemzésből származik, ahol előre betanított értékelők kódolnak szöveges egységeket, használják a tanácsadásban és a kérdőíves vizsgálatokban is, ahol az értékelők nyílt végű kérdések interjú adatait kódolják elemezhető formátumba, a pszichometriában, ahol az egyes attribútumokat többféle módszer is teszteli, megfigyeléses vizsgálatokban, ahol strukturálatlan eseményeket rögzítenek későbbi elemzés céljából és a számítógépes nyelvészetben, ahol szövegeket különböző szintaktikus és szemantikus tulajdonságok alapján jegyzetelnek ki.

Jegyzetek[szerkesztés]

↑ Yon Soo Park(2011): Rater Drift in Constructed Response Scoring via Latent Class Signal Detection Theory and Item Response Theory, Theses, Columbia University Academic Commons
↑ Saal, F.E., Downey, R.G. and Lahey, M.A (1980) "Rating the Ratings: Assessing the Psychometric Quality of Rating Data" in Psychological Bulletin. Vol. 88, No. 2, pp. 413–428
↑ Uebersax, John S. (1987). "Diversity of decision making models and the measurement of interrater agreement" in Psychological Bulletin. Vol 101, pp. 140–146.
↑ Cohen, J. (1960) "A coefficient for agreement for nominal scales" in Education and Psychological Measurement. Vol. 20, pp. 37–46
↑ Fleiss, J. L. (1971) "Measuring nominal scale agreement among many raters" in Psychological Bulletin. Vol. 76, No. 5, pp. 378–382
↑ Gwet, K. L. (2010a) "Correcting Inter-Rater Reliability for Chance Agreement: Why?”
↑ Gwet, K. L. (2014) "Handbook of Inter-Rater Reliability (4th Edition)
↑ Shrout, P. and Fleiss, J. L. (1979) "Intraclass correlation: uses in assessing rater reliability" in Psychological Bulletin. Vol. 86, No. 2, pp. 420–428
↑ Everitt, B. (1996) Making Sense of Statistics in Psychology (Oxford : Oxford University Press) ISBN 0-19-852366-1
↑ Ludbrook, J. "Confidence in Altman–Bland plots: A critical review of the method of differences." Clinical and Experimental Pharmacology and Physiology 37.2 (2010): 143-149.
↑ Bland, J. M., and Altman, D. G. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. Lancet i, pp. 307–310.
↑ Krippendorff, K. (2013). Content analysis: An introduction to its methodology, 3rd Edition. Thousand Oaks, CA: Sage. pp. 221–250.

További olvasmányok[szerkesztés]

Gwet, Kilem L. (2014) Handbook of Inter-Rater Reliability, Fourth Edition, (Gaithersburg : Advanced Analytics, LLC) ISBN 978-0970806284
Gwet, K. L. (2008). “Computing inter-rater reliability and its variance in the presence of high agreement.” British Journal of Mathematical and Statistical Psychology, 61, 29-48
Johnson, R., Penny, J., & Gordon, B. (2009). Assessing performance: Developing, scoring, and validating performance tasks. New York: Guilford Publications.ISBN 978-1-59385-988-6
Shoukri, M. M. (2010) Measures of Interobserver Agreement and Reliability (2nd edition). Boca Raton, FL: Chapman & Hall/CRC Press, ISBN 978-1-4398-1080-4

[1] Yon Soo Park(2011): Rater Drift in Constructed Response Scoring via Latent Class Signal Detection Theory and Item Response Theory, Theses, Columbia University Academic Commons

[2] Saal, F.E., Downey, R.G. and Lahey, M.A (1980) "Rating the Ratings: Assessing the Psychometric Quality of Rating Data" in Psychological Bulletin. Vol. 88, No. 2, pp. 413–428

[3] Uebersax, John S. (1987). "Diversity of decision making models and the measurement of interrater agreement" in Psychological Bulletin. Vol 101, pp. 140–146.

[4] Cohen, J. (1960) "A coefficient for agreement for nominal scales" in Education and Psychological Measurement. Vol. 20, pp. 37–46

[5] Fleiss, J. L. (1971) "Measuring nominal scale agreement among many raters" in Psychological Bulletin. Vol. 76, No. 5, pp. 378–382

[6] Gwet, K. L. (2010a) "Correcting Inter-Rater Reliability for Chance Agreement: Why?”

[7] Gwet, K. L. (2014) "Handbook of Inter-Rater Reliability (4th Edition)

[8] Shrout, P. and Fleiss, J. L. (1979) "Intraclass correlation: uses in assessing rater reliability" in Psychological Bulletin. Vol. 86, No. 2, pp. 420–428

[9] Everitt, B. (1996) Making Sense of Statistics in Psychology (Oxford : Oxford University Press) ISBN 0-19-852366-1

[10] Ludbrook, J. "Confidence in Altman–Bland plots: A critical review of the method of differences." Clinical and Experimental Pharmacology and Physiology 37.2 (2010): 143-149.

[11] Bland, J. M., and Altman, D. G. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. Lancet i, pp. 307–310.

[12] Krippendorff, K. (2013). Content analysis: An introduction to its methodology, 3rd Edition. Thousand Oaks, CA: Sage. pp. 221–250.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]