Egymintás t-próba

A Wikipédiából, a szabad enciklopédiából

Az egymintás t-próba azt vizsgálja, hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy adott m értéktől.

A próba alkalmazásának feltételei[szerkesztés | forrásszöveg szerkesztése]

A próba nullhipotézise[szerkesztés | forrásszöveg szerkesztése]

Nullhipotézis: a vizsgált változó átlaga statisztikai szempontból megegyezik az előre megadott m értékkel.

Alternatív hipotézis: a vizsgált változó átlaga statisztikai szempontból nem egyezik meg az előre megadott m értékkel.

A "statisztikai szempontból" kifejezés itt arra utal, hogy az eltérés a mintából kiszámolt átlag és az m érték között olyan minimális, hogy pusztán csak a véletlen ingadozásnak tulajdonítható (ekkor a minta átlaga statisztikai szempontból azonosnak tekinthető az m-mel), vagy jelentősen nagyobb, mint ami a véletlennel magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg m-mel).

Valójában a fenti két hipotézis precíz matematikai megfogalmazása a következő.

  • H0: Az X valószínűségi változó várható értéke megegyezik m-mel.
  • H1: Az X valószínűségi változó várható értéke nem egyezik meg m-mel.

A próbastatisztika[szerkesztés | forrásszöveg szerkesztése]

Az egymintás t-próba próbastatisztikája


t = \frac{\bar x-m}{s / \sqrt{n}}

ahol

  • \bar x a vizsgált valószínűségi változó átlaga a mintában,
  • s a vizsgált valószínűségi változó becsült szórása,
  • m az előre adott érték, amihez az átlagot viszonyítjuk (ld. nullhipotézis) és
  • n a minta elemszáma.

A szórást itt többnyire a szokott 
s = \sqrt{ \frac{\sum_{i=1}^n (x_i-\bar x)^2}{n} }
képlettel becsüljük, ahol a minta az {x_1, x_2, ... , x_n} értékekből áll.

Azonban ha a minta elemszáma kisebb mint 30 (vagyis n<30), akkor a szórás helyett a korrigált szórással szoktunk számolni, melyet s helyett s*-gal jelölünk. Ennek képlete


s^* = \sqrt{ \frac{\sum_{i=1}^n (x_i-\bar x)^2}{n-1} }.

Az n<30 esetben tehát a t próbastatisztika képletében az s helyére s* kerül. (A csere mögött az a meggondolás áll, hogy az s torzított becslése míg s* torzítatlan becslése a szórásnak.)

A próba végrehajtásának lépései[szerkesztés | forrásszöveg szerkesztése]

  1. Az t próbastatisztika értékének kiszámítása.
  2. A p szignifikancia szint megválasztása. (Ez a legtöbb vizsgálat esetén 0,05 vagy 0,01.)
  3. A p szignifikancia szinttől függő t_p érték kiválasztása a próbának megfelelő táblázatból. A táblázat jelen esetben a t-eloszlás táblázata, melyre szoktak úgy is utalni, mint Student-eloszlás, illetve Student-féle t-eloszlás. A táblázat kétdimenziós, a p szignifikancia szint és az f szabadsági fok ismeretében azonnal megkapjuk a táblázatbeli t_p értéket. Az f szabadsági fokot az egymintás t-próba esetén az f = n – 1 képlettel számítjuk.
  4. A nullhipotézisre vonatkozó döntés meghozása.
    • Ha |t| ≥ t_p, akkor a nullhipotézist elvetjük, az alternatív hipotézist tartjuk meg, és az eredményt úgy interpretáljuk, hogy a mintában a vizsgált valószínűségi változó átlaga szignifikánsan eltér az adott m értéktől (p szignifikancia szint mellett).
    • Ha |t| < t_p, akkor a nullhipotézist megtartjuk, amit úgy interpretálunk, hogy az egymintás t-próba nem mutat ki szignifikáns különbséget a vizsgált valószínűségi változó mintabeli átlaga és az adott m érték között (p szignifikancia szint mellett).

Példa[szerkesztés | forrásszöveg szerkesztése]

Egy gyárban egy gépnek 500 gr töltőanyagot kell a konzervekbe juttatnia minden töltéskor. A töltőanyag egyenetlenségéből adódóan a gép néha kicsit többet, néha kicsit kevesebbet tölt, mint 500 gr. Arra vagyunk kíváncsiak, hogy a gép átlagos "teljesítménye" 500 gr-nak mondható-e. Kiveszünk 10 konzervet a futószalagról és megmérjük mindben a töltőanyag súlyát. Az eredmények rendre

483, 502, 498, 496, 502, 483, 494, 491, 505, 486.

Azt látjuk, hogy a töltőanyag súlya többnyire valóban nem tér el az 500 gr-tól nagyon, az átlag \bar x= 494. Ránézésre mégsem tudjuk megállapítani, hogy ez a 494 gr lényegesen eltér-e az 500 gr-tól vagy csak a véletlennek tulajdonítható apró eltérésről van szó. Ennek a dilemmának az eldöntésére egymintás t-próbát alkalmazunk.

Feltesszük, hogy a töltőanyag súlya, mint valószínűségi változó normális eloszlást követ. (Hogy ez így van-e azt illeszkedésvizsgálatokkal, azon belül is normalitásvizsálatokkal lehetne ellenőrizni.) A súly kg-ban való mérése arányskála, így az egymintás t-próba alkalmazásának feltételei teljesülnek. Mivel a minta elemszáma n = 10 < 30 így a szórás becslésére az s* képletet használjuk: s* = 8,05 adódik. Az érték, amitől a minta átlagának esetleges eltérésére vagyunk kíváncsiak, nyilvánvalóan az m = 500 érték. A próbastatisztika képletének minden elemét ismerjük, tehát számítható


t = \frac{\bar x-m}{s / \sqrt{n}} = \frac{494-500}{8,05 / \sqrt{10}} \approx 2,36

Vegyük a szignifikancia szintet p = 0,05-nek azaz 5%-os kockázatot vállalunk arra, hogy esetleg úgy vetjük el a nullhipotézist, hogy az közben igaz. A szabadsági fok f = n -1 = 9, így a p és az f ismeretében a t-eloszlás táblázatából könnyen kikereshetjük a megfelelő táblázatbeli értéket, ami t_p=t_{0,05}= 2,262.

t ≈ 2,36 miatt u > 2,3 > 2,262 = t_{0,05}

azaz |t| ≥ t_p teljesül.

Így a nullhipotézist elvethetjük, az egymintás t-próba szerint az átlagos töltősúly szignifikánsan eltér (p = 0,05-ös szignifikancia szint mellett) az 500 gr-tól.

A próba matematikai háttere[szerkesztés | forrásszöveg szerkesztése]

A próba matematikai hátterének legfontosabb gondolata, hogy bármely X normális eloszlású valószínűségi változóra vett X1, X2, … Xn minta esetén az


\overline X = \frac{1}{n} \sum_{i=1}^{n} X_i,

és


s^* = \sqrt{ \frac{\sum_{i=1}^n (X_i-\overline X)^2}{n-1} }

jelölésekkel élve megmutatható, hogy a


t = \frac{\overline X-m}{s^* / \sqrt{n}}

valószínűségi változó (n–1) szabadsági fokú t-eloszlást követ.

Emiatt az (n–1) szabadsági fokú t-eloszlás ismeretében bármilyen 1>p>0 esetén meg lehet határozni azt a tp értéket, melyre


1-p = \bold P \left(-t_p<\frac{\overline X - m}{s^* / \sqrt n}<t_p \mid \ H_0\right)
.

Ez azt jelenti, hogy ha igaz a nullhipotézis, akkor a t próbastatisztika értéke 1-p valószínűséggel a (-tp, tp) intervallumba esik.

Megjegyzések[szerkesztés | forrásszöveg szerkesztése]

  • Az egymintás t-próba bizonyos tekintetben az egymintás u-próba párja. Az egymintás u-próba ugyanezt a nullhipotézist vizsgálja, csak a feltételei közt szerepel az szórás értékének előzetes ismerete, s nem a minta adataiból becsli azt. A próbastatisztika képlete is nagyon hasonló, csak benne az becsült s szórás helyett az eleve adott σ szórás szerepel. Természetesen a két próba matematikai háttere is nagyon hasonló.
  • A szakirodalom nem teljesen egységes annak tekintetében, hogy a nullhipotézis elvetéséről vagy megtartásáról szóló döntésben az |t| és t_p közötti két egyenlőtlenség közül melyiknél engedi meg az egyenlőséget. Ennek gyakorlati jelentősége nem igazán van, az alkalmazások során nagyon ritkán adódik, hogy a kiszámított próbastatisztika pontosan egybe essen a táblázatbeli értékkel. Ha esetleg mégis így alakul, akkor az eredmény úgy interpretálható, hogy a nullhipotézis elvetése esetén a kockázat pontosan megegyezik a szignifikancia szinttel, s innen a kutató (és a tudós társadalom) szája ízétől függ, hogy ebben inkább a nullhipotézis elvetésének, vagy inkább a nullhipotézis megtartásának zálogát látja.
  • Érdemes megfigyelni az óvatos fogalmazást a nullhipotézis megtartása esetén. Az általunk meghatározott p szignifikancia szint az elsőfajú hiba elkövetésének valószínűségét adja meg. Ha el tudom vetni a nullhipotézist, akkor ekkora kockázatot vállalok arra nézve, hogy esetleg hiba elvetni. Amennyiben viszont nem tudom elvetni a nullhipotézis, akkor elsőfajú hibát biztosan nem fogok elkövetni, ám elkövethetek másodfajú hibát, melynek kockázatáról semmit nem mond a próba. Ez indokolja, hogy ha a nullhipotézist megtartjuk, akkor nem azt mondjuk, hogy nincs szignifikáns különbség a minta átlaga és az előre megadott m érték között, hanem hogy az egymintás t-próba nem tudott szignifikáns különbséget kimutatni (ami ettől még lehet, hogy van).
  • A próbát Student-féle t-próbának, vagy egymintás Student-féle t-próbának is szokták nevezni. Az elnevezés mögött az áll, hogy a t próbastatisztika azt a t-eloszlást követi, melyet szoktak Student-eloszlásnak, vagy Student-féle t-eloszlásnak is nevezni.

Lásd még[szerkesztés | forrásszöveg szerkesztése]

Kétmintás t-próba

További információk[szerkesztés | forrásszöveg szerkesztése]

Források[szerkesztés | forrásszöveg szerkesztése]

  • Fazekas I. (szerk.) (2000): Bevezetés a matematikai statisztikába. Kossuth Egyetemi Kiadó, Debrecen.
  • Lukács O. (2002): Matematikai statisztika. Műszaki Könyvkiadó, Budapest.
  • Michaletzky Gy. – Mogyoródi J. (1995): Matematikai statisztika, Nemzeti Tankönyvkiadó, Budapest.
  • Michelberger P. – Szeidl L. – Várlaki P. (2001): Alkalmazott folyamatstatisztika és idősor-analízis. Typotex Kiadó, Budapest.
  • Vargha A. (2000): Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó, Budapest.