Egymintás t-próba

Az egymintás t-próba azt vizsgálja, hogy egy mintában egy valószínűségi változó átlaga szignifikánsan különbözik-e egy adott m értéktől.

A próba alkalmazásának feltételei

a vizsgált valószínűségi változó normális eloszlású
a vizsgált valószínűségi változó intervallum vagy arányskálán mérték

A próba nullhipotézise

Nullhipotézis: a vizsgált változó átlaga statisztikai szempontból megegyezik az előre megadott m értékkel.^{[* 1]}

Alternatív hipotézis: a vizsgált változó átlaga statisztikai szempontból nem egyezik meg az előre megadott m értékkel.

A "statisztikai szempontból" kifejezés itt arra utal, hogy az eltérés a mintából kiszámolt átlag és az m érték között olyan minimális, hogy pusztán csak a véletlen ingadozásnak tulajdonítható (ekkor a minta átlaga statisztikai szempontból azonosnak tekinthető az m-mel), vagy jelentősen nagyobb, mint ami a véletlennel magyarázható (ekkor a minta átlaga statisztikai szempontból nem egyezik meg m-mel).

Valójában a fenti két hipotézis precíz matematikai megfogalmazása a következő.

H₀: Az X valószínűségi változó várható értéke megegyezik m-mel.
H₁: Az X valószínűségi változó várható értéke nem egyezik meg m-mel.

A próbastatisztika

Az egymintás t-próba próbastatisztikája

t={\frac {{\bar {x}}-m}{s/{\sqrt {n}}}}

ahol

${\bar {x}}$ a vizsgált valószínűségi változó átlaga a mintában,
s a vizsgált valószínűségi változó becsült szórása,
m az előre adott érték, amelyhez az átlagot viszonyítjuk (ld. nullhipotézis) és
n a minta elemszáma.

A szórást itt többnyire a szokott $s={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}$ képlettel becsüljük, ahol a minta az { $x_{1},x_{2},...,x_{n}$ } értékekből áll.

Azonban ha a minta elemszáma kisebb mint 30 (vagyis n<30), akkor a szórás helyett a korrigált szórással szoktunk számolni, melyet s helyett s^*-gal jelölünk. Ennek képlete

$s^{*}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}$ , ahol n-1 a szabadsági fok.^{[* 2]}

Az n<30 esetben tehát a t próbastatisztika képletében az s helyére s^* kerül. (A csere mögött az a meggondolás áll, hogy az s torzított becslése míg s^* torzítatlan becslése a szórásnak.)

A próba végrehajtásának lépései

Az t próbastatisztika értékének kiszámítása.
A p szignifikanciaszint megválasztása. (Ez a legtöbb vizsgálat esetén 0,05 vagy 0,01.)
A p szignifikanciaszinttől függő $t_{p}$ érték kiválasztása a próbának megfelelő táblázatból. A táblázat jelen esetben a t-eloszlás táblázata, melyre szoktak úgy is utalni, mint Student-eloszlás, illetve Student-féle t-eloszlás. A táblázat kétdimenziós, a p szignifikanciaszint és az f szabadsági fok ismeretében azonnal megkapjuk a táblázatbeli $t_{p}$ értéket. Az f szabadsági fokot az egymintás t-próba esetén az f = n – 1 képlettel számítjuk.
A nullhipotézisre vonatkozó döntés meghozása.
- Ha |t| ≥ $t_{p}$ , akkor a nullhipotézist elvetjük, az alternatív hipotézist tartjuk meg, és az eredményt úgy interpretáljuk, hogy a mintában a vizsgált valószínűségi változó átlaga szignifikánsan eltér az adott m értéktől (p szignifikanciaszint mellett).
- Ha |t| < $t_{p}$ , akkor a nullhipotézist megtartjuk, amit úgy interpretálunk, hogy az egymintás t-próba nem mutat ki szignifikáns különbséget a vizsgált valószínűségi változó mintabeli átlaga és az adott m érték között (p szignifikanciaszint mellett).

Példa

Egy gyárban egy gépnek 500 g töltőanyagot kell a konzervekbe juttatnia minden töltéskor. A töltőanyag egyenetlenségéből adódóan a gép néha kicsit többet, néha kicsit kevesebbet tölt, mint 500 g. Arra vagyunk kíváncsiak, hogy a gép átlagos "teljesítménye" 500 g-nak mondható-e. Kiveszünk 10 konzervet a futószalagról és megmérjük mindben a töltőanyag súlyát. Az eredmények rendre

483, 502, 498, 496, 502, 483, 494, 491, 505, 486.

Azt látjuk, hogy a töltőanyag tömege többnyire valóban nem tér el az 500 g-tól nagyon, az átlag ${\bar {x}}$ = 494^{[* 3]}. Ránézésre mégsem tudjuk megállapítani, hogy ez a 494 g lényegesen eltér-e az 500 g-tól vagy csak a véletlennek tulajdonítható apró eltérésről van szó. Ennek a dilemmának az eldöntésére egymintás t-próbát alkalmazunk.

Feltesszük, hogy a töltőanyag tömege, mint valószínűségi változó normális eloszlást követ. (Hogy ez így van-e azt illeszkedésvizsgálatokkal, azon belül is normalitásvizsgálatokkal lehetne ellenőrizni.) A tömegnek kg-ban való mérése arányskála, így az egymintás t-próba alkalmazásának feltételei teljesülnek. Mivel a minta elemszáma n = 10 < 30 így a szórás becslésére az s^* képletet használjuk: s^* = 8,05 adódik. Az érték, amelytől a minta átlagának esetleges eltérésére vagyunk kíváncsiak, nyilvánvalóan az m = 500 érték. A próbastatisztika képletének minden elemét ismerjük, tehát számítható

t={\frac {{\bar {x}}-m}{s/{\sqrt {n}}}}={\frac {494-500}{8,05/{\sqrt {10}}}}\approx -2,36

Vegyük a szignifikanciaszintet p = 0,05-nek azaz 5%-os kockázatot vállalunk arra, hogy esetleg úgy vetjük el a nullhipotézist, hogy az közben igaz. A szabadsági fok f = n -1 = 9, így a p és az f ismeretében a t-eloszlás táblázatából könnyen kikereshetjük a megfelelő táblázatbeli értéket, ami $t_{p}=t_{0,05}=$ 1,833.

|t| ≈ 2,36 miatt 2,36 > 1,833 = $t_{0,05}$

azaz |t| ≥ $t_{p}$ teljesül.

Így a nullhipotézist elvetjük, az egymintás t-próba szerint az átlagos töltőtömeg szignifikánsan eltér (p = 0,05-ös szignifikanciaszint mellett) az 500 g-tól, de p=0,01-es szignifikanciaszint mellett már |t| = 2,36 < $t_{0,01}$ = 2,821, így az eltérés nem lenne szignifikáns.

A próba matematikai háttere

A próba matematikai hátterének legfontosabb gondolata, hogy bármely X normális eloszlású valószínűségi változóra vett X₁, X₂, … X_n minta esetén az

{\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i},

és

s^{*}={\sqrt {\frac {\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}{n-1}}}

jelölésekkel élve megmutatható, hogy a

t={\frac {{\overline {X}}-m}{s^{*}/{\sqrt {n}}}}

valószínűségi változó (n–1) szabadsági fokú t-eloszlást követ.

Emiatt az (n–1) szabadsági fokú t-eloszlás ismeretében bármilyen 1>p>0 esetén meg lehet határozni azt a t_p értéket, melyre

1-p=\mathbf {P} \left(-t_{p}<{\frac {{\overline {X}}-m}{s^{*}/{\sqrt {n}}}}<t_{p}\mid \ H_{0}\right)

.

Ez azt jelenti, hogy ha igaz a nullhipotézis, akkor a t próbastatisztika értéke 1-p valószínűséggel a (-t_p, t_p) intervallumba esik.

Megjegyzések

Az egymintás t-próba bizonyos tekintetben az egymintás u-próba párja. Az egymintás u-próba ugyanezt a nullhipotézist vizsgálja, csak a feltételei közt szerepel az szórás értékének előzetes ismerete, s nem a minta adataiból becsli azt. A próbastatisztika képlete is nagyon hasonló, csak benne az becsült s szórás helyett az eleve adott σ szórás szerepel. Természetesen a két próba matematikai háttere is nagyon hasonló.
A szakirodalom nem teljesen egységes annak tekintetében, hogy a nullhipotézis elvetéséről vagy megtartásáról szóló döntésben az |t| és $t_{p}$ közötti két egyenlőtlenség közül melyiknél engedi meg az egyenlőséget. Ennek gyakorlati jelentősége nem igazán van, az alkalmazások során nagyon ritkán adódik, hogy a kiszámított próbastatisztika pontosan egybe essék a táblázatbeli értékkel. Ha esetleg mégis így alakul, akkor az eredmény úgy interpretálható, hogy a nullhipotézis elvetése esetén a kockázat pontosan megegyezik a szignifikanciaszinttel, s innen a kutató (és a tudós társadalom) szája ízétől függ, hogy ebben inkább a nullhipotézis elvetésének, vagy inkább a nullhipotézis megtartásának zálogát látja.
Érdemes megfigyelni az óvatos fogalmazást a nullhipotézis megtartása esetén. Az általunk meghatározott p szignifikanciaszint az elsőfajú hiba elkövetésének valószínűségét adja meg. Ha elvetem a nullhipotézist, akkor ekkora kockázatot vállalok arra nézve, hogy esetleg hiba elvetni. Amennyiben viszont nem vetem el a nullhipotézist, akkor elsőfajú hibát biztosan nem követek el, ám elkövethetek másodfajú hibát, melynek kockázatáról semmit nem mond a próba. Ez indokolja, hogy ha a nullhipotézist megtartjuk, akkor nem azt mondjuk, hogy nincs szignifikáns különbség a minta átlaga és az előre megadott m érték között, hanem hogy az egymintás t-próba nem tudott szignifikáns különbséget kimutatni (ami ettől még lehet, hogy van).
Az egymintás t-próba feltételezi, hogy az eloszlás elemei folytonos értékkészletű változók. Ezért értelmetlen a szignifikanciaszint emelése egészen a bizonyosságig.
A próbát Student-féle t-próbának, vagy egymintás Student-féle t-próbának is szokták nevezni. Az elnevezés mögött az áll, hogy a t próbastatisztika azt a t-eloszlást követi, melyet szoktak Student-eloszlásnak, vagy Student-féle t-eloszlásnak is nevezni.

Lásd még

Kétmintás t-próba

Jegyzetek

↑ A mérésügyben m a valódi érték, az átlag pedig annak lehető legjobb becslése; várható értéke
↑ Az, hogy az eloszlás elemeiből egy adatot elvettünk az átlag kiszámítása céljára, csökkentette az eloszlás szabadsági fokát eggyel
↑ A matematikai statisztika nem foglalkozik a változók mértékegységével; csakis a mérőszámával. Ezért ezt a számításokban nem szokás jelölni

További információk

Student t táblázat (p=0,05; 0,01; 0,001) (archive.org tükör megszűnt weboldalról)
Student t-eloszlás táblázata Általános Vállalkozási Főiskola

Források

Fazekas I. (szerk.) (2000): Bevezetés a matematikai statisztikába. Kossuth Egyetemi Kiadó, Debrecen.
Lukács O. (2002): Matematikai statisztika. Műszaki Könyvkiadó, Budapest.
Michaletzky Gy. – Mogyoródi J. (1995): Matematikai statisztika, Nemzeti Tankönyvkiadó, Budapest.
Michelberger P. – Szeidl L. – Várlaki P. (2001): Alkalmazott folyamatstatisztika és idősor-analízis. Typotex Kiadó, Budapest.
Vargha A. (2000): Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó, Budapest.

Matematikaportál • összefoglaló, színes tartalomajánló lap

[1] A mérésügyben m a valódi érték, az átlag pedig annak lehető legjobb becslése; várható értéke

[2] Az, hogy az eloszlás elemeiből egy adatot elvettünk az átlag kiszámítása céljára, csökkentette az eloszlás szabadsági fokát eggyel

[3] A matematikai statisztika nem foglalkozik a változók mértékegységével; csakis a mérőszámával. Ezért ezt a számításokban nem szokás jelölni

[* 1]

[* 2]

[* 3]