Statisztikai mintavétel

A Wikipédiából, a szabad enciklopédiából

A statisztikai mintavétel a statisztikai gyakorlatnak az a része, amely során a populációból egyéneket választunk ki független vagy véletlenszerű kiválasztással, azzal a szándékkal, hogy ismereteket szerezzünk a megfigyelni kívánt populációról, és statisztikai következtetésen alapuló előrejelzéseket tehessünk. A mintavétel a statisztikai adatgyűjtés fontos aspektusa. A kutatók ritkán végzik el a felmérést a teljes populáción, mégpedig két okból kifolyólag: a költségek nagyon magasak lennének, valamint mert a populáció dinamikus, azaz idővel változásokon mehet keresztül. A mintavétel három fő előnye, hogy a költségek alacsonyabbak, az adatgyűjtés gyorsabb, és mivel az adathalmaz kisebb, biztosítani lehet a homogenitását, és fokozni lehet az adatok pontosságát és minőségét.

Minden megfigyelés az egyének alkotta független megfigyelendő objektumok egy vagy több tulajdonságát veszi figyelembe, (mint például súly, hely, szín).

A felmérést alkalmazó mintavétel során a felmérési adatok súlyozása alkalmazható, tehát az adatokat az eltervezett mintához rendeljük hozzá. Gyakorlati útmutatóként a valószínűségszámítási elmélet és a statisztikai elmélet eredményeit alkalmazzuk. Az üzleti és gyógyászati kutatások során a mintavételi eljárást széles körben alkalmazzák, hogy adatokat gyűjtsenek populációkról.

A mintavétel folyamata[szerkesztés | forrásszöveg szerkesztése]

  • Definiáljuk a vizsgálandó populációt.
  • Meghatározzuk mintavételi keretet.
  • Meghatározzuk a mintavételi eljárást.
  • Megszabjuk a minta nagyságát.
  • Létrehozzuk a mintavételi tervet.
  • Mintát veszünk, és adatokat gyűjtünk.
  • Felülvizsgáljuk a mintavételi eljárásunkat.

A populáció meghatározása[szerkesztés | forrásszöveg szerkesztése]

A sikeres statisztikai gyakorlat a fókuszált problémameghatározáson alapul. Mintavétel esetén ez magába foglalja annak a populációnak a meghatározását, amelyből a mintát vesszük. A populáció olyan emberek vagy objektumok halmazaként definiálható, amelyek rendelkeznek azzal a jellemzővel, amelyet meg akarunk érteni. Mivel ritkán áll rendelkezésre elegendő pénz és idő arra, hogy mindenkitől és mindenről információt gyűjtsünk a populációból, a cél az, hogy találjuk meg ennek a populációnak a reprezentatív mintáját, vagy alcsoportját.

Néha nyilvánvaló, hogy mi határozza meg az adott populációt. Például, ha egy gyártónak el kell döntenie, hogy egy legyártott tétel elég jó minőségű-e ahhoz, hogy piacra dobja, vagy pedig a gyenge minőség miatt át kell dolgoznia. Ebben az esetben a legyártott tétel teszi ki a populációt.

Habár a populációnk gyakran áll fizika objektumokból, néha mintát kell gyűjtenünk az időről, a helyről, vagy ezek kombinációjáról. Például a szupermarketek személyzetének vizsgálata magában foglalhatja a sorbanállás idejét különböző napszakokban, vagy a veszélyeztetett pingvinek vizsgálatának célja lehet, hogy megértsük, hogy hogyan használják a vadászterületüket az egyes időszakokban.

Más esetben kevésbé egyértelmű, hogy mi a populációnk. Például Joseph Jagger a rulettkerék forgását figyelte Monte Carlo-ban egy kaszinóban, hogy azonosítsa a nem megfelelően forgó kerekeket. Ebben az esetben a megfigyelni kívánt populáció a kerék átlagos forgása (tehát végtelenül sok próbálkozás eredményéből adódó, valószínűségszámítás szerinti eloszlás) volt. Hasonlóan megfontolások merülnek fel, mikor fizikai tulajdonságokat (például a réz vezetőképességét) vizsgálunk ismételt méréssel.

Gyakran olyan okozati rendszerről keresünk ismereteket, amelynek a végeredménye a megfigyelt populáció. Ilyenkor a megfigyelt populáció egy szélesebb populációból származó minta. Például egy kutató vizsgálhatja az új „leszokás a dohányzásról“ program eredményességét 100 páciensből álló tesztcsoporton abból a célból, hogy a program hatását előrejelezze, ha országosan végzik. Ebben az esetben a szuperpopuláció „mindenki az országban, akik számára elérhető a kezelés“- egy csoport, ami még nem elérhető, mivel a program még nem létezik.

Megjegyezzük, hogy a populáció, amelyből a mintát merítjük, nem biztos hogy ugyanaz a populáció, amelyről információt akarunk szerezni.

Gyakran adódik nagymértékű, de nem teljes átfedés a két csoport között a kereteket illetően. Néha teljesen eltérnek, például vizsgálhatunk patkányokat, hogy jobban megértsük az emberi egészséget, vagy pedig vizsgálhatjuk a 2008-ban született egyének feljegyzéseit, hogy előrejelzéseket készíthessünk a később születendő gyermekekről. A vizsgálni kívánt populáció és a minta pontos meghatározása azért fontos, mert sok kérdést felvet, amely egyébként talán elkerülné a figyelmünket.


A mintavételi keret[szerkesztés | forrásszöveg szerkesztése]

A legkevésbé összetett esetekben, mint például hogy a legyártott tételt minőségi szempontból megítéljük (mennyiségi mintavétellel), lehetséges, hogy azonosítsuk és megmérjük a populációt kitevő teljes tétel minden egyes elemét, és hogy mindegyik szerepeljen a mintánkban. Azonban sokkal gyakoribb, hogy ez nem lehetséges. Nem lehetséges azonosítani például valamennyi patkányt, valamint abban az esetben, ha a szavazás nem kötelező, nincs mód arra, hogy azonosítsuk azokat ez egyéneket (még a választásokat megelőzően), akik valóban szavazni fognak az elkövetkező választásokon.

Az ilyen, bizonytalanul körülhatárolható populációk nem alkalmasak a lentebb említett mintavételi mód egyikére sem, melyek során a statisztikai elméletet alkalmazunk.

Eszközként a mintavételi keretet keressük meg, amely alkalmas arra, hogy a populáció minden egyes elemét azonosítsuk és bevonjuk bármely mintánkba. A legegyszerűbb keret típus a populáció (amennyiben lehetséges, az egész populáció) elemeinek a listája megfelelő információval a kontaktus lehetőségéről. Például, egy közvélemény-kutatás során a lehetséges mintavételi keretek a következők lehetnek:

  • Választók névjegyzéke
  • Telefonkönyv

Nem minden keret tartalmazza kifejezetten a populáció elemeit. Például, egy utcatérkép használható mint az "ajtóról ajtóra járás"-sal történő kutatás kerete; annak ellenére, hogy nem tünteti fel egyedileg az egyes házakat, kiválaszthatjuk a térképről az egyes utcákat, és aztán mindegy egyes házat meglátogathatunk az adott utcában. (Az ilyen jellegű keret egyik előnye, hogy tartalmazza azokat az egyéneket is, akik nemrég költöztek ide, és még nem szerepelnek a fentebb tárgyalt keretekben).

A mintavételi keretnek reprezentatívnak kell lennie a populáció tekintetében, és ez a kérdés kívül esik a statisztikai elmélet körén, és olyan szakértők véleménye szükséges hozzá, akik ebben a részletkérdésben jártasak. Valamennyi fenti keretből kimaradnak pl. azok az emberek,akik választani fognak az elkövetkezendő választások során, és bele kerülnek olyanok, akik viszont nem fognak szavazni; egyes keretek többszöri feljegyzést fognak tartalmazni ugyanazon egyénről. Azok az emberek, akik nem tartoznak a mintavételi keretbe, nem fognak belekerülni a mintavételbe. A statisztikai elmélet megmutatja nekünk a pontatlanságokat a mintáról a keretre való extrapolációval.

"A kutató számára azonban csak a reprezentatív mintavétel az egyetlen helyes mintavételi mód arra, hogy a kiválasztott egyedi objektumok generalizálás (általánosítás) alapjául szolgálhassanak, és ezért rendszerint az egyetlen elfogadható alap arra, hogy megállapítsuk, mi az igazság." (Andrew A. Marino)

A keret definiálása során figyelembe kell venni a gyakorlati, gazdasági, etikai és műszaki szempontokat. Annak szükségessége, hogy adott időn belül eredményre jussunk, visszatarthat attól, hogy a keretet a távoli jövőbe is kiterjesszük. Nehézségeink akadhatnak, ha a populáció és a keret diszkrét (megszakított). Ez jellemző probléma az előrejelzések során, amikor is a jövőre vonatkozó következtetést múltbeli adatokból vonják le. 1703-ban, amikor Jacob Bernoulli azt javasolta Gottfried Leibniznek, hogy a múltbeli elhalálozási adatokból jósolja meg egy élő egyén korai halálának a valószínűségét, Gottfried Leibniz felismerte a problémát, és a következőt válaszolta:

"A természet mintákat hozott létre, mely az események újbóli visszatérésén alapul, ez azonban csak egy részre vonatkozik. Új betegségek árasztják el az emberi nemet, ezért bármennyi kísérletet és végzünk el az elhunytakon, ez által nem tudjuk limitálni a természetnek a jövőben módosuló eseményeit." (Gottfried Leibnitz)

Kish a mintavételi keret három alapvető problémáját tételezi fel:

  1. Elveszett elemek: A populáció némely tagja nem kerül bele a keretbe.
  2. Idegen elemek: Olyan elemek kerülnek a keretbe, melyek nem tagjai a populációnak.
  3. Duplán szereplő adatok: A populáció tagja egynél többször kerül vizsgálat alá.
  4. Csoportosulások: A keret csoportosulásokat sorol fel egyedek helyett.

A keret nyújthat kiegészítő “külső információt” is az elemeiről; ha ez az információ kapcsolódik a vizsgált csoport mutatóihoz, alkalmas lehet a vizsgálati minta javítására. Például a választók jegyzéke tartalmazhatja a neveket és a nemeket; ez az információ alkalmazható arra, hogy megbizonyosodjunk arról, hogy a keret lefedi valamennyi vizsgálni kívánt demográfiai csoportot (néha a külső információ kevésbé konkrét; a telefonszám például támpontot nyújthat a helyről). Miután létrehoztuk a keretet, többféle mód áll rendelkezésre ahhoz, hogy növeljük hatékonyságát és effektivitását. Ebben a szakaszban kell a kutatónak eldöntenie, hogy a mintának ténylegesen az egész populációnak kell-e lennie.

Valószínűségi és nem valószínűségi mintavétel[szerkesztés | forrásszöveg szerkesztése]

A valószínűségi mintavétel során a populáció valamennyi egyedének lehetősége van (nullánál nagyobb az esélye) bekerülni a mintába. Ha minden elem a populációban azonos valószínűséggel választható a mintába, azonos valószínűséggel történő kiválasztásról (“equal probability of selection” =EPS) beszélünk. A valószínűségi mintavételhez az alábbi mintavételi eljárások tartoznak:

  • Egyszerű véletlen mintavétel
  • Szisztematikus mintavétel
  • Rétegzett mintavétel
  • Többlépcsős csoportos mintavétel

A különböző mintavételi eljárások két dologban megegyeznek:

  1. Minden elemnek van egy nullánál nagyobb valószínűsége a bekerülésre.
  2. Bizonyos tekintetben magukban foglalják a random kiválasztást.

A nem valószínűségi mintavételi eljárás olyan módszer, melynek során a populáció bizonyos elemeinek nincs lehetősége bekerülni a mintába, vagy a kiválasztás valószínűségét nem lehet pontosan meghatározni. A nem valószínűségi mintavételhez az alábbi eljárások tartoznak:

  • Önkényes mintavétel
  • Koncentrált mintavétel
  • Kvótás mintavétel
  • Hólabda módszerű mintavétel

Forrás[szerkesztés | forrásszöveg szerkesztése]

Ez a szócikk részben vagy egészben a Sampling (statistics) című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel.