Egymintás t-próba

A Wikipédiából, a szabad enciklopédiából

Az egymintás t-próba azt vizsgálja, hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy adott m értéktől.

A próba alkalmazásának feltételei[szerkesztés]

A próba nullhipotézise[szerkesztés]

Nullhipotézis: a vizsgált változó átlaga statisztikai szempontból megegyezik az előre megadott m értékkel.[* 1]

Alternatív hipotézis: a vizsgált változó átlaga statisztikai szempontból nem egyezik meg az előre megadott m értékkel.

A "statisztikai szempontból" kifejezés itt arra utal, hogy az eltérés a mintából kiszámolt átlag és az m érték között olyan minimális, hogy pusztán csak a véletlen ingadozásnak tulajdonítható (ekkor a minta átlaga statisztikai szempontból azonosnak tekinthető az m-mel), vagy jelentősen nagyobb, mint ami a véletlennel magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg m-mel).

Valójában a fenti két hipotézis precíz matematikai megfogalmazása a következő.

  • H0: Az X valószínűségi változó várható értéke megegyezik m-mel.
  • H1: Az X valószínűségi változó várható értéke nem egyezik meg m-mel.

A próbastatisztika[szerkesztés]

Az egymintás t-próba próbastatisztikája

ahol

  • a vizsgált valószínűségi változó átlaga a mintában,
  • s a vizsgált valószínűségi változó becsült szórása,
  • m az előre adott érték, amelyhez az átlagot viszonyítjuk (ld. nullhipotézis) és
  • n a minta elemszáma.

A szórást itt többnyire a szokott képlettel becsüljük, ahol a minta az {} értékekből áll.

Azonban ha a minta elemszáma kisebb mint 30 (vagyis n<30), akkor a szórás helyett a korrigált szórással szoktunk számolni, melyet s helyett s*-gal jelölünk. Ennek képlete

, ahol n-1 a szabadsági fok.[* 2]

Az n<30 esetben tehát a t próbastatisztika képletében az s helyére s* kerül. (A csere mögött az a meggondolás áll, hogy az s torzított becslése míg s* torzítatlan becslése a szórásnak.)

A próba végrehajtásának lépései[szerkesztés]

  1. Az t próbastatisztika értékének kiszámítása.
  2. A p szignifikanciaszint megválasztása. (Ez a legtöbb vizsgálat esetén 0,05 vagy 0,01.)
  3. A p szignifikanciaszinttől függő érték kiválasztása a próbának megfelelő táblázatból. A táblázat jelen esetben a t-eloszlás táblázata, melyre szoktak úgy is utalni, mint Student-eloszlás, illetve Student-féle t-eloszlás. A táblázat kétdimenziós, a p szignifikanciaszint és az f szabadsági fok ismeretében azonnal megkapjuk a táblázatbeli értéket. Az f szabadsági fokot az egymintás t-próba esetén az f = n – 1 képlettel számítjuk.
  4. A nullhipotézisre vonatkozó döntés meghozása.
    • Ha |t| ≥ , akkor a nullhipotézist elvetjük, az alternatív hipotézist tartjuk meg, és az eredményt úgy interpretáljuk, hogy a mintában a vizsgált valószínűségi változó átlaga szignifikánsan eltér az adott m értéktől (p szignifikanciaszint mellett).
    • Ha |t| < , akkor a nullhipotézist megtartjuk, amit úgy interpretálunk, hogy az egymintás t-próba nem mutat ki szignifikáns különbséget a vizsgált valószínűségi változó mintabeli átlaga és az adott m érték között (p szignifikanciaszint mellett).

Példa[szerkesztés]

Egy gyárban egy gépnek 500 g töltőanyagot kell a konzervekbe juttatnia minden töltéskor. A töltőanyag egyenetlenségéből adódóan a gép néha kicsit többet, néha kicsit kevesebbet tölt, mint 500 g. Arra vagyunk kíváncsiak, hogy a gép átlagos "teljesítménye" 500 g-nak mondható-e. Kiveszünk 10 konzervet a futószalagról és megmérjük mindben a töltőanyag súlyát. Az eredmények rendre

483, 502, 498, 496, 502, 483, 494, 491, 505, 486.

Azt látjuk, hogy a töltőanyag tömege többnyire valóban nem tér el az 500 g-tól nagyon, az átlag = 494[* 3]. Ránézésre mégsem tudjuk megállapítani, hogy ez a 494 g lényegesen eltér-e az 500 g-tól vagy csak a véletlennek tulajdonítható apró eltérésről van szó. Ennek a dilemmának az eldöntésére egymintás t-próbát alkalmazunk.

Feltesszük, hogy a töltőanyag tömege, mint valószínűségi változó normális eloszlást követ. (Hogy ez így van-e azt illeszkedésvizsgálatokkal, azon belül is normalitásvizsgálatokkal lehetne ellenőrizni.) A tömegnek kg-ban való mérése arányskála, így az egymintás t-próba alkalmazásának feltételei teljesülnek. Mivel a minta elemszáma n = 10 < 30 így a szórás becslésére az s* képletet használjuk: s* = 8,05 adódik. Az érték, amelytől a minta átlagának esetleges eltérésére vagyunk kíváncsiak, nyilvánvalóan az m = 500 érték. A próbastatisztika képletének minden elemét ismerjük, tehát számítható

Vegyük a szignifikanciaszintet p = 0,05-nek azaz 5%-os kockázatot vállalunk arra, hogy esetleg úgy vetjük el a nullhipotézist, hogy az közben igaz. A szabadsági fok f = n -1 = 9, így a p és az f ismeretében a t-eloszlás táblázatából könnyen kikereshetjük a megfelelő táblázatbeli értéket, ami 1,833.

|t| ≈ 2,36 miatt 2,36 > 1,833 =

azaz |t| ≥ teljesül.

Így a nullhipotézist elvetjük, az egymintás t-próba szerint az átlagos töltőtömeg szignifikánsan eltér (p = 0,05-ös szignifikanciaszint mellett) az 500 g-tól, de p=0,01-es szignifikanciaszint mellett már |t| = 2,36 < = 2,821, így az eltérés nem lenne szignifikáns.

A próba matematikai háttere[szerkesztés]

A próba matematikai hátterének legfontosabb gondolata, hogy bármely X normális eloszlású valószínűségi változóra vett X1, X2, … Xn minta esetén az

és

jelölésekkel élve megmutatható, hogy a

valószínűségi változó (n–1) szabadsági fokú t-eloszlást követ.

Emiatt az (n–1) szabadsági fokú t-eloszlás ismeretében bármilyen 1>p>0 esetén meg lehet határozni azt a tp értéket, melyre

.

Ez azt jelenti, hogy ha igaz a nullhipotézis, akkor a t próbastatisztika értéke 1-p valószínűséggel a (-tp, tp) intervallumba esik.

Megjegyzések[szerkesztés]

  • Az egymintás t-próba bizonyos tekintetben az egymintás u-próba párja. Az egymintás u-próba ugyanezt a nullhipotézist vizsgálja, csak a feltételei közt szerepel az szórás értékének előzetes ismerete, s nem a minta adataiból becsli azt. A próbastatisztika képlete is nagyon hasonló, csak benne az becsült s szórás helyett az eleve adott σ szórás szerepel. Természetesen a két próba matematikai háttere is nagyon hasonló.
  • A szakirodalom nem teljesen egységes annak tekintetében, hogy a nullhipotézis elvetéséről vagy megtartásáról szóló döntésben az |t| és közötti két egyenlőtlenség közül melyiknél engedi meg az egyenlőséget. Ennek gyakorlati jelentősége nem igazán van, az alkalmazások során nagyon ritkán adódik, hogy a kiszámított próbastatisztika pontosan egybe essék a táblázatbeli értékkel. Ha esetleg mégis így alakul, akkor az eredmény úgy interpretálható, hogy a nullhipotézis elvetése esetén a kockázat pontosan megegyezik a szignifikanciaszinttel, s innen a kutató (és a tudós társadalom) szája ízétől függ, hogy ebben inkább a nullhipotézis elvetésének, vagy inkább a nullhipotézis megtartásának zálogát látja.
  • Érdemes megfigyelni az óvatos fogalmazást a nullhipotézis megtartása esetén. Az általunk meghatározott p szignifikanciaszint az elsőfajú hiba elkövetésének valószínűségét adja meg. Ha elvetem a nullhipotézist, akkor ekkora kockázatot vállalok arra nézve, hogy esetleg hiba elvetni. Amennyiben viszont nem vetem el a nullhipotézist, akkor elsőfajú hibát biztosan nem követek el, ám elkövethetek másodfajú hibát, melynek kockázatáról semmit nem mond a próba. Ez indokolja, hogy ha a nullhipotézist megtartjuk, akkor nem azt mondjuk, hogy nincs szignifikáns különbség a minta átlaga és az előre megadott m érték között, hanem hogy az egymintás t-próba nem tudott szignifikáns különbséget kimutatni (ami ettől még lehet, hogy van).
  • Az egymintás t-próba feltételezi, hogy az eloszlás elemei folytonos értékkészletű változók. Ezért értelmetlen a szignifikanciaszint emelése egészen a bizonyosságig.
  • A próbát Student-féle t-próbának, vagy egymintás Student-féle t-próbának is szokták nevezni. Az elnevezés mögött az áll, hogy a t próbastatisztika azt a t-eloszlást követi, melyet szoktak Student-eloszlásnak, vagy Student-féle t-eloszlásnak is nevezni.

Lásd még[szerkesztés]

Kétmintás t-próba

Jegyzetek[szerkesztés]

  1. A mérésügyben m a valódi érték, az átlag pedig annak lehető legjobb becslése; várható értéke
  2. Az, hogy az eloszlás elemeiből egy adatot elvettünk az átlag kiszámítása céljára, csökkentette az eloszlás szabadsági fokát eggyel
  3. A matematikai statisztika nem foglalkozik a változók mértékegységével; csakis a mérőszámával. Ezért ezt a számításokban nem szokás jelölni

További információk[szerkesztés]

Források[szerkesztés]

  • Fazekas I. (szerk.) (2000): Bevezetés a matematikai statisztikába. Kossuth Egyetemi Kiadó, Debrecen.
  • Lukács O. (2002): Matematikai statisztika. Műszaki Könyvkiadó, Budapest.
  • Michaletzky Gy. – Mogyoródi J. (1995): Matematikai statisztika, Nemzeti Tankönyvkiadó, Budapest.
  • Michelberger P. – Szeidl L. – Várlaki P. (2001): Alkalmazott folyamatstatisztika és idősor-analízis. Typotex Kiadó, Budapest.
  • Vargha A. (2000): Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó, Budapest.