Simpson-paradoxon
A Simpson-paradoxon a statisztikában ismert antinómia, mely akkor lép fel, ha két csoportot kettébontunk. Ekkor ugyanis a csoportra érvényes megállapítás az ellentétébe fordulhat át.
Példa:
Tegyük fel, hogy egy esélyegyenlőséggel foglalkozó szervezetnél dolgozunk, és azzal bíznak meg minket, hogy Y élelmiszeripari vállalat humánpolitikáját ellenőrizzük, mivel gyanúba keveredett a cég, hogy diszkriminálják a hozzájuk jelentkező cigány származású munkavállalókat. Az következő információk állnak rendelkezésünkre:
| 1999-ben állományba vett munkavállalók | Y vállalat | Többi élelmiszeripari vállalat |
|---|---|---|
| Cigány munkavállalók | 110 | 1532 |
| Nem cigány munkavállalók | 125 | 1202 |
Mit állapíthatunk meg ezekből az adatokból? Milyen módon végezzünk számításokat?
Könnyen megállapíthatjuk a cigány munkavállalók arányát: ebben az esetben Y vállalatnál az eredmény kisebb, mint 50%, hiszen 110 < 125. Ellentétben a többi élelmiszeripari vállalat esetében kapott eredménnyel, ahol az nagyobb, mint 50%, hiszen 1532 > 1202.
Az eredmény arra késztet minket, hogy vizsgálatot indítsunk a cég humánpolitikai osztályán a cég által alkalmazott felvételi rendszer tisztázása érdekében. Y vállalat elnöke a következő adatokat hozza fel érvként a vádakkal szemben:
| Az 1999-ben alkalmazott,
diplomával nem rendelkező munkavállalók: |
Y vállalat | Többi élelmiszeripari vállalat |
|---|---|---|
| Cigány munkavállalók | 52 | 1211 |
| Nem cigány munkavállalók | 24 | 631 |
| Az 1999-ben alkalmazott,
diplomával rendelkező munkavállalók: |
Y vállalat | Többi élelmiszeripari vállalat |
|---|---|---|
| Cigány munkavállalók | 58 | 321 |
| Nem cigány munkavállalók | 101 | 571 |
Miben védik ezek az adatok Y vállalatot a vádakkal szemben? Milyen módon érdemes számításokat végeznünk?
Y vállalat érvei szerint az ő adataik a diplomások, és a diplomával nem rendelkezők körében is jobb eredményeket mutatnak fel, mint a többi élelmiszeripari vállalat adatai. Y vállalatnál ugyanis a diplomával nem rendelkezők körében 52/(52+24)=68%, míg a többi élelmiszeripari vállalatnál csak 1211/(1211+631)=66% a cigány munkavállalók aránya; míg a diplomások körében Y vállalatnál 58/(58+101)=36,5%, míg a többi élelmiszeripari vállalatnál 321/(321+571)=36,0% a cigány munkavállalók aránya.
Mi lehet az oka annak, hogy az arányok az ellentétükbe fordultak át azáltal, hogy az iskolázottságot is beemeltük a vizsgálatba? Mi a különbség Y és a többi élelmiszeripari vállalat között az iskolázottságot figyelembe véve? Mi a különbség a cigányok és nem cigányok között az iskolázottságot figyelembe véve?
Ha az egyes eredmények nagyon eltérőek, akkor ez a vizsgálatból kimaradt paraméterekre vezethető vissza. Ezért a hamis következtetések elkerülése érdekében ezeket a tényezőket is figyelembe kell venni. Ez megoldható úgy, hogy az egyes csoportokat külön-külön értékeljük ki.
Ábrázolás vektorokkal [szerkesztés]
A Simpson-paradoxon ábrázolható a két dimenziós vektortérben.[1] A sikeres kísérletek
aránya az
vektorral ábrázolható, aminek meredeksége
. Ha kombináljuk a
és a
arányokat, akkor az eredmény reprezentálható a
és a
vektorok összegével. A paralelogrammaszabály szerint ez az összeg
, aminek meredeksége
.
A Simpson-paradoxon állítása szerint a
(az ábrán +) vektor még mindig meredekebb lehet, mint az
összegvektor, még akkor is, ha a
(kék) vektor kevésbé meredek, mint az
(piros) vektor, és
kevésbé meredek, mint az
vektor.
Gyakorisága [szerkesztés]
Ha egy
-es táblázatot véletlen számokkal töltünk ki, akkor a Simpson-paradoxon 1/60 valószínűséggel lép fel.[2]
Források [szerkesztés]
- ↑ Jerzy Kocik (December 2001). Proofs without Words: Simpson's Paradox. Mathematics Magazine. 74 (5), p. 399.
- ↑ Marios G. Pavlides and Michael D. Perlman (2009. August). „How Likely is Simpson’s Paradox?”. The American Statistician 63 (3), 226–233. o. DOI:10.1198/tast.2009.09007.

