Standard hiba

A Wikipédiából, a szabad enciklopédiából

A statisztikában a standard hiba a mintavétel eloszlásának szórása. Amennyiben a fogalmat nem definiáljuk pontosabban, a standard hiba kifejezés általában az átlag mintavételi szórását jelenti, de ugyanígy kiszámítható a mediánra vagy más paraméterre vonatkozólag is. A mintavétel során sohasem állítható vissza az eredeti sokaság 100%-ban.[1][2]

Egy sokaság átlagának szokásos becslésénél a szórás jellemző érték. Azonban ha ugyanazon a sokaságon több mintát veszünk, minden mintavétel után a minta átlaga mindig különböző értéket fog eredményezni. A középérték standard hibája ezeknek a mintavételeknek a szórása.

A valóságban a szórás valódi értéke rendszerint ismeretlen. Ezért a standard hiba gyakran ennek az ismeretlen mennyiség becslésére utal. Egyes esetekben nem a standard hibát használják, hanem más megközelítést alkalmaznak. Ilyen lehet a maximális valószínűség módszere, vagy a konfidenciaintervallum eszközét használják. Egy sokat használt módszer a konfidenciaintervallum becslésére a Student-féle T-próba. Más esetekben a standard hibát a bizonytalanság mértékének jelzésre használják.[3]

Regressziószámításnál is használják a standard hiba fogalmát, a legkisebb négyzetek módszere alkalmazásával.[4][5]

A mennyiség, ami méri az átlagok különbségének „nagyságát”, az a standard hiba (standard error). Az adatok értékének standard hibája megmutatja, hogy az adatokból nyert átlag mennyire pontosan becsli a „valódi átlagot”. A standard hiba megegyezik a szórás négyzetgyökével.

Mintavétel és standard hiba[szerkesztés]

Mintavételi eloszlás[szerkesztés]

A statisztikai elemzések során egy adott populáció vagy sokaság valamely jellemzőjét szeretnénk megismerni olyan esetekben, amikor nincs rá módunk, hogy a teljes populációt megvizsgáljuk. Ilyen esetekben a sokaságból n elemű mintát veszünk és a minta egyes paraméterei alapján vonunk le következtetést a populáció adott paramétereire vonatkozóan (például egy minta átlagát használjuk arra, hogy megbecsüljük a populáció átlagát). Ezt az eljárást nevezzük statisztikai következtetésnek vagy indukciónak. Értelemszerűen a mintában kapott értékek nem, vagy csak nagyon ritkán egyeznek meg a populációbeli értékkel. A különböző lehetséges minták értékei a populáció vonatkozó értéke körül fognak szóródni. Ezek a lehetséges értékek adják az ún. mintavételi eloszlást. Ahhoz, hogy el tudjuk dönteni, egy adott minta alapján milyen következtetéseket tudunk levonni a sokaságra nézve, ismernünk a kell a mintavételi eloszlás jellemzőit.

A mintavételi eloszlás egy adott statisztikai mutató valószínűségi eloszlása - általában - ismételt véletlen mintavétel esetén. Véges sokaságok esetében megfogalmazható az összes lehetséges n elemű minta adott statisztikai mutatóra (pl. átlag) vonatkozó eloszlásaként. Megmutatható, hogy amennyiben a populáció átlag normális eloszlású, az átlag mintavételi eloszlás is normál eloszlást követ, ahol a mintából nyert mutatói átlag megegyezik a populációbeli paraméterrel.

Standard hiba[szerkesztés]

A standard hiba a fentebb leírt mintavételi eloszlásnak a szórása. Vagyis azt mutatja meg, hogy amikor sok azonos elemű véletlen mintát veszünk egy sokaságból, akkor a minták átlaga mennyire szóródik a populáció paramétere körül. Ha például az átlag standard hibáját vesszük, elmondható, hogy normál eloszlású populáció esetén a mintabeli átlagok az esetek közel 68 százalékában egy szórásnyi (standard hibányi) távolságra helyezkednek el az átlagtól, míg körülbelül kétszórásnyi távolságon belül találjuk a lehetséges mintaátlagok 95 százalékát. Ennek az oka, hogy a mintavételi eloszlás a normál eloszlás alakját veszi fel, melyről bizonyítható, hogy a fenti tulajdonságokkal rendelkezik.

Képlet[szerkesztés]

Az átlag standard hibájának képlete:

Ahol s a minta szórása, n pedig a minta elemszáma.

Ideális esetben a képletben a minta szórása helyett a populáció szórása szerepel, azonban mivel a populáció szórása rendszerint ismeretlen, ezért azt a minta szórásából becsüljük.

Látható, hogy a minta növelésével csökken a hiba.

Standard hiba és szórás[szerkesztés]

A standard hiba nem összetévesztendő más szóródási mutatókkal (például a minta szórásával). A szórás azt mutatja meg, hogy az egyedi megfigyelések mennyire térnek el egymástól (a minta egyes értékei átlagosan milyen távolságra helyezkednek el az átlagtól), míg a standard hiba arra utal, hogy a mintánkban kapott paraméter mekkora ingadozást mutat a populációbeli paraméter körül a mintavétel miatt. A két mutató eltérő működéséből következik, hogy a standard hiba és a szórás különbözőképpen reagál a minta-elemszám növelésére. A fenti képletből is látszik, hogy az elemszám növelésével a standard hiba csökken (a nullához közelít), hiszen a nagyobb minta jobb becslését adja a populáció paraméterének. A szórás értéke azonban a minta növelésével nem csökken, mindössze annyit mondhatunk el róla, hogy az elemszám növelésével közelít a populáció szórásához. Ebből következően az elemszám növelésével nem tudunk predikciót tenni arra vonatkozólag, hogy a szórás alacsonyabb vagy magasabb lesz.

A standard hiba és a szórás szinonimaként való használata vagy felcserélése a gyakorlati alkalmazások egyik leggyakrabban elkövetett hibája. Nagele (2003)[6] például egy metaelemzésben megmutatta, hogy az aneszteziológia területén a négy vezetőnek számító folyóirat mindegyike közölt olyan cikkeket, melyekben a szerzők a két fogalmat helytelenül használták.

A standard hiba felhasználása[szerkesztés]

A standard hiba szerepe a statisztikai hipotézisvizsgálatban[szerkesztés]

A standard hiba fogalma fontos szerepet játszik a statisztikai hipotézisvizsgálat folyamatában. A hipotézisvizsgálat során arra a kérdésre keressük a választ, hogy egy adott minta milyen valószínűséggel származik egy bizonyos populációból. (Maga a statisztikai eljárás tulajdonképpen nem pont így teszi fel a kérdést, de ahhoz, hogy megértsük, mi a jelentősége a standard hibának a módszerben, elég, ha a fenti logikát értjük.). A következőkben az átlagra vonatkozó hipotézisvizsgálaton keresztül mutatjuk be az általános elveket, tehát a standard hiba kifejezés is az átlag standard hibájára vonatkozik. Ha tudjuk, hogy az érdeklődésünk középpontjában álló sokaság normális eloszlást követ, akkor tudjuk azt is, hogy az átlag mintavételi eloszlása szintén normális eloszlású. Sőt, tudható az is (ld. 1.2-es alfejezet), hogy a lehetséges mintaátlagok meghatározott valószínűséggel kerülnek ki a populáció átlag körüli előre meghatározott övezetből (pl. az esetek 95 százalékában a mintaátlag a populáció átlagtól kevesebb, mint két standard hibányi távolságra fekszik). Ha tehát ismerjük a feltételezett populációátlagot (ezt fogalmazzuk meg rendszerint a nullhipotézisben, valamint ismerjük a standard hibát, meg tudjuk mondani, hogy a mintánk milyen valószínűséggel származik a feltételezett populációból. A standard hiba pontos értéke azonban általában nem ismert a kutató számára, hiszen nagyon ritka az az eset, amikor a populációbeli szórásról van információnk. A hipotézisvizsgálat során ezért gyakran a minta szórásának segítségével becsüljük a populáció szórását, valamint ezen keresztül a standard hibát. A megfelelő statisztikai próba függ attól, hogy a populáció szórása ismert-e. A társadalomtudományokban gyakran használatos t-próbák különböző formái például nem követelik meg a populáció szórásának ismeretét, hanem azt a minta szórásával becslik.

A standard hiba és a konfidenciaintervallumok meghatározása[szerkesztés]

A fentihez hasonló logika alapján a standard hibát használják a konfidenciaintervallumok meghatározására is. A kérdés szoros összefüggésben áll a fent tárgyalt hipotézisvizsgálattal, csak míg ott rendszerint úgy tesszük a fel a kérdést, hogy egy bizonyos érték milyen valószínűséggel esik egy meghatározott intervallumba (ez lesz a p érték), itt úgy merül fel, hogy mi az az intervallum, ami alfa valószínűséggel tartalmazza a sokasági paramétert. Míg a hipotézisvizsgálat alapvetően csak arra alkalmas, hogy az előre meghatározott kérdésünkről egy döntést hozhassunk, addig a konfidenciaintervallum segítségével több információhoz juthatunk a becsülni kívánt paraméterről, ezért sokan ezt a módszert tartják alkalmasabbnak a statisztikai következtetés során. A konfidenciaintervallumokat használhatjuk a hipotézis-tesztelés során is, ekkor azt nézzük meg, hogy egy adott érték beleesik-e a paraméter pl. 95%-os konfidenciaintervallumába.

A konfidenciaintervallum kiszámítása[szerkesztés]

A fentiekhez hasonló módon ennek meghatározásához ismernünk kell, hogy a populációból vett mintaátlagok (az egyszerűség kedvéért továbbra is az átlagot használjuk példaként, de érdemes észben tartani, hogy intervallumbecslést a populáció más paraméterére is adhatunk) hogyan szóródnak a sokasági átlag körül. Ha például a 95%-os konfidenciaintervallumot szeretnénk megadni, akkor a folyamat két mozzanatát kell mindenképp megemlítenünk:

  1. a populáció átlagának pontbecslését a mintaátlag alapján adjuk, tehát ez lesz az az érték, amihez képest megadjuk a konfidenciaintervallumok hibahatárát (vagyis hogy a felső és alsó határértékek hova esnek).
  2. a hibahatár meghatározásánál azt vesszük figyelembe, hogy a mintaeloszlás ismeretében hány standard hibányi távolságra helyezkedik el az átlagtól a lehetséges értékek 95%-a (kétoldali intervallumbecslésnél azt feltételezzük, hogy az átlag mindkét oldalán ugyanolyan széles az intervallum, ezért mindkét oldalon 2,5% eltérést engedünk meg).

A fentiekből következően a konfidenciaintervallum képlete a következőképpen határozható meg:

ahol m a minta átlaga, s a minta szórása, n a mintanagysága, az 1,96-os érték pedig a standard normális eloszlás 95%-hoz tartozó kvantilise.

Irodalom[szerkesztés]

  • Isserlis, L: On the value of a mean as calculated from a sample. (hely nélkül): Journal of the Royal Statistical Society (Blackwell Publishing). 1918. 75–81. o.  

Kapcsolódó szócikkek[szerkesztés]

Források[szerkesztés]

  1. Everitt, B.S. (2003) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
  2. Archivált másolat. [2012. január 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2013. március 18.)
  3. http://nimbus.elte.hu/oktatasi_anyagok/fortran_szubrutinok/tproba.htm
  4. Kenney, J. and Keeping, E.S. (1963) Mathematics of Statistics, van Nostrand, p. 187
  5. Zwillinger D. (1995), Standard Mathematical Tables and Formulae, Chapman&Hall/CRC. ISBN 0-8493-2479-3 p. 626
  6. Nagele, P. (2003). Misuse of standard error of the mean (SEM) when reporting variability of a sample. A critical evaluation of four anaesthesia journals. British journal of anaesthesia, 90(4), 514-516.