Varianciaanalízis
A varianciaanalízis számos egyező szórású, normális eloszlású csoport átlagának összevetésére alkalmas statisztikai módszer, melyet angol megnevezésének (analysis of variance) kezdőbetűiből generálva ANOVA-ként is ismernek.
Elemi információk az ANOVA-ról
[szerkesztés]Eltérő módon lerögzített varianciák segítségével viszonyítja egymáshoz a populáció különböző középértékeit. Adott vizsgálat során előálló teljes adatmennyiség, mint alaphalmaz össz-szórását, konkrétabban, összvarianciáját analizálja abból a nézőpontból, hogy ingadozás okára keresi a választ. Annak a tisztázását segíti, hogy a fentebb említett szórásbeli eltérések mögött a véletlen vagy egy másik magyarázó tényező hatása bújik-e meg. Ilyen tényezőnek tekinthető adott populáción belüli csoportok átlagai közti eltérést. A varianciák számítását és becslését arra a matematikai tényre alapozva vezeti le, hogy a teljes variancia számlálója, azaz a teljes eltérés-négyzetösszeg független elemek összegeként állítható elő, emellett a nevező, azaz a szabadsági fok az adott komponensek szabadsági fokainak összegeként áll elő.
Kutatási kérdések
[szerkesztés]- Van-e differencia / változás a tapasztalt eredmények között?
Eltérésre, változásra keres magyarázatot.
- Van-e hatása a kísérleti manipulációnak – a kontrollhoz viszonyítva – a célváltozóra?
Egzaktabbul az átlagra gyakorolt hatást elemzi.
Változók
[szerkesztés]- Nominális vagy ordinális változókat intervallum szintűekkel vet össze.
- Nominális és ordinális szintű változók: a nem, a településformák típusai…
- Intervallumváltozók: magasság, testsúly, jövedelem, teljesítmény, fogyasztási költségek…
- Magyarázat:
A függő változó: y= intervallumváltozó középérték mentén történő szórását részekre bontja, és ezek közül van olyan, melyet a független változó: x= nominális vagy ordinális szintű, egyúttal magyarázó változó hatásának lehet betudni.
Nullhipotézis
[szerkesztés]- Nincs különbség az átlagok között, a kezelések/csoportok a célváltozó átlagára nézve minden mintában/kezelési csoportban azonosak.
- Szignifikanciaszint<0,05, ekkor nullhipotézist elvetjük, van különbség, az átlagok nem egyenlők.
- Szignifikanciaszint>0,05, ekkor a nullhipotézist megtartjuk, nincs különbség, az átlagok egyeznek.
- Alkalmazási feltételek
- A függő változó magas mérési szintű (legalább intervallum szintű)
- Normál eloszlás (vagy legalább szimmetrikus)
- A vizsgált csoportokban az elemszám közel azonos
- A függő változó szórása azonos a csoportokban, vagy legalábbis a szórás nem korrelál a csoportátlaggal
- Alkalmazási feltételek
Alternatív hipotézis
[szerkesztés]- Nem minden átlag egyenlő, a kezelések/csoportok között különbség van.
Feltételek ellenőrzése
[szerkesztés]Az alábbi statisztikai próbákkal lehetséges:
- Normalitás vizsgálata: khí-négyzet próba, Kolmogorov–Szmirnov-próba
- Szórások egyenlőségének ellenőrzése: Bartlett-próba, Levene-teszt
Módszerek osztályozása
[szerkesztés]- A vizsgálati / lefuttatási szempontok száma (egy- és többszempontos varianciaanalízis) és a minták függetlensége szerint.
- Az ismételt méréses varianciaanalízis: legalább egy szempont szerint kapcsolódó minták.
Pl. egy szempont szerint független, a másik szerint összefüggő minták: kétszempontos ismételt méréses varianciaanalízis
- Az ismételt méréses szempont szerint lefolytatott analízis varianciáját egyedeken belüli (within subject, intrasubject) , a független szempont szerint csoportosított egyedek közötti (between subject, intersubject) varianciával jellemezzük.
Típusai
[szerkesztés]Egyszempontos varianciaanalízis
[szerkesztés]Az egytényezős (one-way, one-factor) varianciaelemzés tulajdonságai:
- Számos, általában paralel elrendezésű csoport folytonos, normális eloszlású tulajdonságának átlagát veti össze, ezen belül csak egy szempont eltérésére fókuszál.
- Kiindulópontja az F-próba, ami az átlagok eltérésére karakterisztikus »csoportok közötti« varianciát veti össze a random ingadozást leíró »csoportokon belüli« varianciával.
- A csoportosító változót faktornak nevezzük. Ha egy faktornak a függő változóra gyakorolt befolyását elemezzük, akkor egyszempontos varianciaanalízisről beszélünk.
- A különbségek felkutatása mélyebb elemzésekkel – ismétléses vagy kontrasztbeli összehasonlításokkal – fokozható.
- Példa: Többféle kezelést vagy többféle betegcsoportot hasonlítunk össze egy adott szempontra nézve.
Többszempontos varianciaanalízis
[szerkesztés]A csoportok függetlensége és többféle szempont szerinti vizsgálata esetén két- vagy többszempontos (multifactor) varianciaanalízissel vetjük össze az átlagokat.
Kétszempontos varianciaanalízis
[szerkesztés]- Az összehasonlítandó egységek két független szempontból is elemezhetők (pl. kísérleti manipuláció fajtája és nemek szerint).
- Ebben az esetben a két szempont (pl. a kezelések különbségei) hatása mellett vizsgálható a kettő kölcsönhatása (interakció) is.
- Interakció: az egyik faktornak a függő változóra hatását módosítja a másik faktor.
- Példa: A két összetevő együtt másképpen hat-e, mint egyedül (pl. a kezelések közötti eltérések függnek-e a nemtől).
Többszempontos varianciaanalízis
[szerkesztés]- Az egyszempontos varianciaanalízis általánosításának tekinthető arra a helyzetre, amikor több faktornak a függő változóra gyakorolt hatását vizsgáljuk.
- Többszörös kölcsönhatások is előadódhatnak.
- Példa: Nemek szerint és kezelések szerint elemzést végzünk. Kísérleti személyek testtömege hogyan függ a nemüktől és a mérés idejétől?
Fő különbség az egyszempontos és többszempontos ANOVA között
[szerkesztés]Az utóbbival az egyes faktorok kitüntetett hatása mellett azok interakcióját is analizálhatjuk.
Ismételt méréses varianciaanalízis
[szerkesztés]Ha a csoportok összetartozó minták csoportjai, akkor ezt kell használjuk.
- Példa: Ugyanazon egyedeken több mérést folytatnak több időpontban vagy különböző kísérleti elrendezések mellett.
A varianciaanalízis és a t-próbák összefüggései
[szerkesztés]- A varianciaanalízis a t-próbák általánosítása több csoport esetére.
- Varianciaanalízisnél a szórásnégyzeteket F-próbával elemezzük, így következtetünk a hatások szignifikanciájára.
- Páros t-próbánál két különböző populáció elvárt értékének egyezését kutatjuk mindkét sokaságból n elemű mintát választva, ahol az adatok páronként összekapcsoltak, más szóval a minták nem függetlenek.
- Ezeket az adatokat lefuttathatjuk egy véletlen és egy rögzített faktor szerinti varianciaanalízissel is.
- Ilyen helyzetben rögzített faktor a két eltérő sokaság (két szinttel), a véletlen faktor az a tényező, ami alapján az adatokat párokba soroljuk (n szinttel).
- A varianciaanalízisnél a rögzített faktor hatásvizsgálatára lefuttatott F-próba matematikailag bizonyítható módon azonos a páros t-próba próbastatisztikájának elemzésével.
- A varianciaanalízis rögzített feltételeinek a páros t-próbánál is teljesülniük kell, a két módszer statisztikai ekvivalenciája miatt.
- Az egyszempontos varianciaanalízis a független mintás t-próba általánosítása, amikor több mint két minta átlagát szeretnénk egymáshoz hasonlítani.
- Két minta esetében az egyszempontos ANOVA és a független mintás t-próba eredménye megegyezik.
Számításának lépései
[szerkesztés]1. A minták azonos populációba tartoznak-e? Ha az eredménye szignifikáns (nem tartoznak egy populációba a mintáink), akkor továbblépünk és feltesszük a következő kérdést. Melyik minták átlagai különböznek szignifikánsan? Ha az első lépés eredménye összességében nem szignifikáns, akkor az átlagok közötti különbség sem, tehát a számítás befejeződik. 2. Az utólagos analízis, a páronkénti vizsgálódás, amit post hoc analízisnek is hívnak. Több módszerét is elfogadott, például Tukey-féle eljárás. A post hoc analízis jelzi, hogy mely mintapárok átlagai közötti eltérés szignifikáns.
SPSS és a varianciaanalízis
[szerkesztés]SPSS: Analyze / Compare Means / One-Way Anova vagy Analyze / General Linear Model / Univariate, ld. többszempontos ANOVA
- Dependent List függő változó(k) megadására szolgáló mező
- Factor csoportosító változót, független változó ide kerül
- Contrasts gombbal alkalmazhatunk kontrasztokat
- Az egyes csoportok bármely kombinációinak összevetésekére használhatók
- Alapesetben két csoport összehasonlítására:
A faktor változónk elemzendő szintjeihez írjunk 1-et és -1-et, a többi szinthez 0-t
- Összetettebb kontrasztok esetében:
A kontraszt két tagját a faktor több szintjének súlyozásával határozzuk meg. Leggyakrabban az „azonos oldalon lévő” értékek összege 1 (vagy -1) legyen.
- Kontrasztokat csak a két átlag viszonyáról való előzetes hipotézis meglétekor használjunk.
- Next: több összehasonlítás lefolytatása esetén
- Post Hoc: post hoc elemzések
- Egyező varianciák esetén a Tukey, különböző Tamhane-próbát ajánlott.
- A posthoc elemzések ajánlottak a kontrasztok helyett, ha a futtatás után valamilyen váratlan hatást, eredményt találunk, és ennek az okára szeretnénk rájönni.
- Options a leíró statisztikák bejelölésére szolgál (Descriptive), a szóráshomogenitás kontrollálása (Homogenity of Variance Test), ha a szóráshomogenitás nem teljesül, a Brown-Forsythe vagy a Welch-próbát használjuk;
Means Plot kapott eredményeink grafikus ábrázolására szolgáló gomb
- Eredmények:
- Descriptives: az alapvető leíró statisztikáknak a faktorváltozó által meghatározott csoportonkénti bontásában történő bemutatása
- Test of Homogeneity of Variances: a Levene-próba eredménye a szóráshomogenitási feltétel ellenőrzésére (ha a teszt szignifikáns, a szórások nem homogének)
- ANOVA: a varianciaanalízis eredménye;
- Between Groups sor szignifikanciája esetében, a vizsgált csoportosító változó szignifikánsan hat a függő változóra, azaz a csoportátlagok különböznek
(FONTOS! Kizárólagosan NEM jelzi a csoportátlagok páronkénti szignifikáns különbségét!)
- Robust Test of Equality of Means: a szóráshomogenitási kritérium sérülésekor, a Brown-Forsythe- vagy a Welch-próba futtatása mellett, ebből a táblázatból kiderül ezeknek az ANOVÁ-nál robusztusabb módszereknek az eredménye
- Contrast Tests: a kontrasztok szignifikanciáját tünteti fel; két sora mutatja a szórások egyezősége és különbözősége esetén számolt eredményeket
Contrast Coefficients táblázat több kontraszt számításakor ajánlott
- Post Hoc Tests – Multiple Comparisons: a post-hoc tesztek eredményét jelzi; a csoportátlagok különbözőségének szignifikanciaszintjét elemezzük.
A varianciaanalízis modellezése
[szerkesztés]Az általános lineáris modell segítségével, ami egy folytonos függő változó értékeit elemezi arra nézve, hogy a véletlen hibán kívül, mely tényezők additív hatásai érvényesülnek még.
- Modellek osztályozása a szintek rögzítettsége alapján
Fix modell
[szerkesztés]A szempontok szintjei rögzítettek, fixek, a hatások konstansok (pl. a kezeléshatás).
Véletlen modell
[szerkesztés]A szempontok szintjeit véletlenszerűen választjuk (pl. a résztvevők kiválasztása, vagy az egyes vizsgálatok hatásai), a hatások valószínűségi változók (véletlen hatás).
Kevert modell
[szerkesztés]Rögzített és véletlen hatások is jelentkeznek. Ismételt méréses adatoknál célszerű, főleg, ha hiányzó értékek is előfordulnak.
Variancia-kovariancia-elemzés (ANCOVA)
[szerkesztés]- A tényezők mellett folytonos magyarázó változókat (ún. kovariánsok) is bevonunk az elemzésbe, amelyek kihatását a célváltozóra lineáris regresszióval fejezzük ki (pl. túlélési idő függése a műtét típusának, és a beteg nemének, valamint életkorának függvényében).
- Ha a kovariánstól való függés nemlineáris, értékeit csoportosítsuk, és ANOVA-t futtassunk.
- Alkalmas az egyes csoportokbeli regressziós egyenesek meredekségének elemzésére.
(A meredekségek eltérését az mutatja, ha a csoport-kovariáns interakció szignifikáns.)
- Azon tényezőkre, amelyeknek nem tudjuk, vagy nem akarjuk az összes szintjét elemezni. Például a mérési idő (napszak, évszak), a földrajzi elhelyezkedés, többcentrumos kutatásban a vizsgáló intézmény, a kísérletvezető, stb.
- Ebben az esetben nem a figyelembe vett szintek (időpontok, földrajzi helyek, intézmények, személyek) között van-e és mekkora a különbség a lényeges a vizsgálat tekintetében, hanem hogy ezek az eltérések összességében mennyivel járulnak hozzá a vizsgált változó varianciájához (a többlet-varianciát el tudjuk választani a véletlen hibától).
- Az effajta tényezőt véletlen tényezőnek: random factor, a modellt, amiben van ilyen, véletlen modellnek: random effect model nevezzük.
ANOVA a gyakorlatban
[szerkesztés]- Rajzelemzés: házrajzok, farajzok, emberrajzok;
- A skizofréniások és az egészségesek összehasonlítása, az átlagok egyváltozós elemzése
- A skizofrénia típusainak összehasonlítása: varianciaanalízis
Hasznos linkek a témában
[szerkesztés]- Keresztes Noémi, Bak Judit, Pikó Bettina: Az ifjúság egészségi állapota, (2007)
- Szabó Gábor: Bevezetés a longitudinális kutatások módszertanába II. (2006. február 23.)
- Vass Zoltán (1999): Projektív rajzok számítógépes elemzése
- Juhász Attila, Nagy Csilla ÁNTSZ Közép-magyarországi Regionális Intézete, Budapest (2007):
A Magyarországon bevezetett haláloki statisztikai változások hatásai a Középváltozások hatásai a Közép--magyarországi Régió lakosságára vonatkozó deszkriptív epidemiológiai elemzésekben (5-10. Oldal) [2]
Ábrázolása
[szerkesztés]- Hasznos szoftver: Stat Soft Hungary: Statistica
Források
[szerkesztés]- Székelyi Mária - Barna Ildikó: Túlélőkészlet az SPSS-hez, Typotex, Budapest 2003
- Kempelen Farkas Digitális Tankönyvtár: Paraméteres eljárások, varianciaanalízis – Kettőnél több csoport összehasonlítása folytonos adatok esetén Archiválva 2007. szeptember 29-i dátummal a Wayback Machine-ben
- Egyutas varianciaanalízis (one-way ANalysis Of VAriance)-VÖCS, (2001.07.)
- Fodor János: Varianciaanalízis (ANOVA) (2006. november 4.) Archiválva 2007. november 13-i dátummal a Wayback Machine-ben
- Varianciaanalízis (2007. április 16-i előadás)[halott link]
- Szabó Gábor: Bevezetés az epidemiológiai kutatások módszertanába II. (2005. március 16.) [3][halott link]
- Klinikai Biostatisztikai Társaság: Egy és többszempontos varianciaanalízis (2003. április 4.) [4]
- ANOVA between groups (angol nyelvű): [5]
- Ozsváth Károly: Stat Soft Statistica for Windows kezelése: Egyszempontos varianciaanalízis (One-way ANOVA) [6]
- SPSS és statisztikai alapok II.: [7]