Kiugró érték

A Wikipédiából, a szabad enciklopédiából
Jump to navigation Jump to search

A statisztikában kiugró értéknek (angolul: outlier) neveznek egy olyan megfigyelt értéket, ami távol van a többi megfigyelt értéktől. Ez általában egyszerűen azt jelenti, hogy adott érték jóval nagyobb vagy kisebb, mint az várható lenne. A jelenség sokszor nehéz döntés elé állítja a kutatókat, hiszen nincs egy egységesen kidolgozott megoldás az ilyen jellegű adatok kezelésére.

Felbukkanás okai[szerkesztés]

A kiugró értékek felbukkanása informatív lehet. Először is fontos kideríteni, hogy valós érték áll-e a mérés mögött, és ha igen, akkor a minta természetes varianciájából fakad-e a kiugró érték, vagy a feltételezésekben, a modellben van a hiba. Alapvetően tehát három okból bukkanhatnak fel kiugró értékek:

Hibás adat[szerkesztés]

Ez leginkább arról árulkodik, hogy valamilyen hiba történt, vagy valamit elrontottak az adatotok mérése és kezelése során. Például az adatok felvétele során átmenetileg meghibásodott valamilyen készülék, vagy túl nagy zaj került a mérésbe, esetleg a kísérlet alanya nem figyelt a feladatra, vagy megzavarta valamilyen külső tényező. De az is lehetséges, hogy a nyers adatok feldolgozása, transzformálása során rontottak el valamit. A feladat ilyenkor a kutatóra hárul, hogy megpróbálja felderíteni, és ha lehetséges, kijavítani a hiba okát, amely korántsem egyszerű dolog.

Természetes variancia[szerkesztés]

Azt a lehetőséget is számba kell venni, hogy valós érték áll-e a mérés mögött, ami azt jelentheti, hogy a kiugró érték a minta természetes varianciájának köszönhetően jelent meg. Normális eloszlású adatoknál szabály szerint 22 esetből 1 lesz távolabb legalább 2 szórással az átlagtól, és 370 esetből 1 lesz legalább 3 szórás távolságra az átlagtól. Tehát egy 1000 elemet tartalmazó minta esetén természetesnek mondható, ha van 3 olyan érték, ami 3 szórásnyira helyezkedik el az átlagtól, míg egy 100 elemet tartalmazó minta esetén 3 ilyen érték már kérdéseket vethet fel. Ilyenkor már lehet gyanakodni valamilyen mérési hibára, vagy arra, hogy a minta nem normális eloszlású.

Hibás modell[szerkesztés]

Kiugró értéknek tekintenek egy olyan értéket is, ami nem illeszkedik egy helyesnek tartott modellbe. Például feltűnően nem illeszkedik a regressziós egyenesre. Ebben az esetben a kiugró értékek eltorzíthatják a regressziós egyenest. Ilyenkor érdemes megvizsgálni azt a lehetőséget is, hogy nem megfelelő a modell, vagy szűkebb az alkalmazhatósági köre, mint gondolták.

Típusok[szerkesztés]

A kiugró értékeknek több típusa is lehet.

Pont[szerkesztés]

Ha néhány érték rendellenesen távol helyezkedik el a többi értéktől. Ez a klasszikus, legegyszerűbb fajtája a kiugró értékeknek, és ennek felfedezésére irányul a legtöbb kiugró érték detekciós eljárás is.

Kontextuális[szerkesztés]

Ha egy adott személy adatai egy speciális kontextusban számítanak rendellenesnek, akkor nevezik kontextuális kiugró értéknek.

Kollektív[szerkesztés]

Lehet, hogy több érték is csoportosul messze az adatállomány többi értékétől. Ezeket az értékeket kollektív kiugró értékeknek nevezik. Az egyes értékek a csoporton belül nem tekinthetők kiugró értékeknek, de magának a csoportnak a feltűnése rendellenes lehet.

Detekció[szerkesztés]

Mivel nincs egy egységes matematikai, illetve szakmai definíció arra, hogy milyen adat számít kiugró értéknek, így detekciójuk egy bizonyos szinten szubjektív feladat. Mivel ilyen szélsőséges értékek, legtöbbször ők adhatják a minta maximumát, illetve minimumát. Ez azonban nem jelenti azt, hogy a minta minimuma és maximuma kiugró érték lenne. Természetesen léteznek eljárások a kiugró értékek detekciójára. Ezek az eljárások modell alapú vagy modellfüggetlen módszerekre oszthatók.

Modell alapú[szerkesztés]

A modell alapú módszerek valamilyen eloszlást feltételeznek, és ez alapján számítják ki, hogy az adott adat rendellenes eltér-e a többitől. Mivel valamilyen eloszlást feltételeznek, így bizonyos esetekben érzékenyebbek, más esetekben azonban nem tanácsos őket használni. Tehát ha tehetjük, használjunk modell alapú módszert, viszont ha az adatok nem alkalmasak erre, akkor használjunk modellfüggetlent.

Modell független[szerkesztés]

A nem modell alapú módszerek robusztusabbak, ezért kevésbé érzékenyek a minta eloszlására, így szélesebb körben alkalmazhatóak, azonban többnyire gyengébben teljesítenek.

Kezelésük[szerkesztés]

Miután valamilyen módon megtaláltuk a kiugró értékeket, el kell döntenünk, hogy mit teszünk velünk. Ehhez érdemes tudnunk azt is, hogy miért okozhatnak problémát.

Miért okozhatnak problémát?[szerkesztés]

A statisztikai elemzések, amelyeket kiugró értékekkel végeznek el, könnyen félrevezetőek lehetnek, mivel könnyen eltéríthetik például az átlagot valamilyen irányban. De vegyünk egy példát, ahol félrevezető lenne bennhagyni a kiugró értéket az elemzésben. Ki szeretnék számítani az átlaghőmérsékletet egy szobában, és 10-ből 9 tárgy 20 és 25 fok közt van, de a sütő 170 C°. Ha egyszerű átlagot számolunk, az átlagos hőmérséklet 35,5 C° és 40 C° közt lesz. Ebben az esetben az átlag nem túl jól fogja bejósolni egy véletlenszerűen kiválasztott tárgy hőmérsékletét a szobából. Ebben az esetben az okozta a problémát, hogy bekerült egy olyan érték az elemzésbe, ami nem annak populációnak a tagja, amit vizsgálni szerettünk volna. Ugyanez a probléma léphet fel, ha például tipikus mintán veszünk fel valamilyen matematikai képességet mérő tesztet, és bekerül egy feltehetően diszkalkuliás személy is a mintánkba. Ilyenkor nagy valószínűséggel kiugró értékként fog viselkedni, és indokolt lehet az személy adatainak figyelmen kívül hagyása az elemzés során. (Igaz, a tudomány jelenlegi állása szerint még nem tudjuk, hogy a diszkalkulia a normál variancia alsó része-e).

Szempontok[szerkesztés]

A kiugró értékek kezelése nagyban függ attól, hogy a kutató milyen oknak ítéli a felbukkanásukat. Ha mérési hibának, akkor minden bizonnyal törölni fogja. Ha adatkezelési hibának, akkor először megpróbálja kideríteni, hogy hol történt hiba, és ha lehet, akkor kijavítja, de ha nem, akkor szintén törlésre kerülnek az adatok. Ez rendben is lenne, hiszen senki sem szeretné, hogy olyan adatbázisokkal végezzenek a kutatók elemzéseket, amelyek tele vannak hibás adatokkal. A probléma az, hogy nem mindig lehet egyértelműen kideríteni, hogy mérési/adatkezelési hiba történt-e. Az igazi kérdés akkor lép fel, ha a kiugró értékek felbukkanását lehet a természetes variancia okának is tekinteni. Még ha normális eloszlást is feltételezünk a mintán, akkor is lehet számítani kiugró értékekre, legfőképp akkor, ha nem normális eloszlású a mintánk. Általában minél nagyobb a mintaelemszám, annál nagyobb az esély a kiugró értékek felbukkanására is. Ezért aztán egyáltalán nem egyértelmű, hogy mit kezdjünk velük ilyen esetben. Az adatok megtartásának és törlésének is lehetnek előnyei és hátrányai egyaránt.

Megtartás[szerkesztés]

Ha úgy döntünk, hogy megtartjuk a kiugró értékeket, akkor érdemes figyelembe venni az adatok elemzése és értelmezése során, hogy lehetséges, hogy a megfigyelt adataink nem normális eloszlásúak, illetve hogy a szélsőséges értékek eltorzíthatják a minta átlagát.

Eltávolítás[szerkesztés]

Több mód létezik a kiugró értékek eltávolítására, így például a trimmelélés, a Winsorizálás, vagy az adat, illetve személy egyszerű törlése. A trimmelés lényege, hogy bizonyos számú elemet (általában százalékban megadva) kitöröl a nagyság szerint sorba rendezett minta elejéről és végéről. A Winsorizálás lényege, hogy behelyettesíti a kiugró értékeket a hozzájuk legközelebb eső értékkel. Az adott személy/adat egyszerű kizárása szintén megoldás lehet, főleg, ha úgy gondoljuk, hogy az adat műtermék. Viszont fontos megjegyezni, hogy ha bekövetkezik bizonyos adatok törlése, illetve módosítása, akkor azt világosan fel kell tüntetni a beszámolóban, és illik indokolni is.

Fordítás[szerkesztés]

Ez a szócikk részben vagy egészben az Outlier című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel.