Varianciaanalízis

A varianciaanalízis számos egyező szórású, normális eloszlású csoport átlagának összevetésére alkalmas statisztikai módszer, melyet angol megnevezésének (analysis of variance) kezdőbetűiből generálva ANOVA-ként is ismernek.

Elemi információk az ANOVA-ról[szerkesztés]

Eltérő módon lerögzített varianciák segítségével viszonyítja egymáshoz a populáció különböző középértékeit. Adott vizsgálat során előálló teljes adatmennyiség, mint alaphalmaz össz-szórását, konkrétabban, összvarianciáját analizálja abból a nézőpontból, hogy ingadozás okára keresi a választ. Annak a tisztázását segíti, hogy a fentebb említett szórásbeli eltérések mögött a véletlen vagy egy másik magyarázó tényező hatása bújik-e meg. Ilyen tényezőnek tekinthető adott populáción belüli csoportok átlagai közti eltérést. A varianciák számítását és becslését arra a matematikai tényre alapozva vezeti le, hogy a teljes variancia számlálója, azaz a teljes eltérés-négyzetösszeg független elemek összegeként állítható elő, emellett a nevező, azaz a szabadsági fok az adott komponensek szabadsági fokainak összegeként áll elő.

Kutatási kérdések[szerkesztés]

Van-e differencia / változás a tapasztalt eredmények között?

Eltérésre, változásra keres magyarázatot.

Van-e hatása a kísérleti manipulációnak – a kontrollhoz viszonyítva – a célváltozóra?

Egzaktabbul az átlagra gyakorolt hatást elemzi.

Változók[szerkesztés]

Nominális vagy ordinális változókat intervallum szintűekkel vet össze.
Nominális és ordinális szintű változók: a nem, a településformák típusai…
Intervallumváltozók: magasság, testsúly, jövedelem, teljesítmény, fogyasztási költségek…
Magyarázat:

A függő változó: y= intervallumváltozó középérték mentén történő szórását részekre bontja, és ezek közül van olyan, melyet a független változó: x= nominális vagy ordinális szintű, egyúttal magyarázó változó hatásának lehet betudni.

Nullhipotézis[szerkesztés]

Nincs különbség az átlagok között, a kezelések/csoportok a célváltozó átlagára nézve minden mintában/kezelési csoportban azonosak.
Szignifikanciaszint<0,05, ekkor nullhipotézist elvetjük, van különbség, az átlagok nem egyenlők.
Szignifikanciaszint>0,05, ekkor a nullhipotézist megtartjuk, nincs különbség, az átlagok egyeznek.
- Alkalmazási feltételek
  - A függő változó magas mérési szintű (legalább intervallum szintű)
  - Normál eloszlás (vagy legalább szimmetrikus)
  - A vizsgált csoportokban az elemszám közel azonos
  - A függő változó szórása azonos a csoportokban, vagy legalábbis a szórás nem korrelál a csoportátlaggal

Alternatív hipotézis[szerkesztés]

Nem minden átlag egyenlő, a kezelések/csoportok között különbség van.

Feltételek ellenőrzése[szerkesztés]

Az alábbi statisztikai próbákkal lehetséges:

Normalitás vizsgálata: khí-négyzet próba, Kolmogorov–Szmirnov-próba
Szórások egyenlőségének ellenőrzése: Bartlett-próba, Levene-teszt

Módszerek osztályozása[szerkesztés]

A vizsgálati / lefuttatási szempontok száma (egy- és többszempontos varianciaanalízis) és a minták függetlensége szerint.
Az ismételt méréses varianciaanalízis: legalább egy szempont szerint kapcsolódó minták.

Pl. egy szempont szerint független, a másik szerint összefüggő minták: kétszempontos ismételt méréses varianciaanalízis

Az ismételt méréses szempont szerint lefolytatott analízis varianciáját egyedeken belüli (within subject, intrasubject) , a független szempont szerint csoportosított egyedek közötti (between subject, intersubject) varianciával jellemezzük.

Típusai[szerkesztés]

Egyszempontos varianciaanalízis[szerkesztés]

Bővebben: Egyszempontos varianciaanalízis

Az egytényezős (one-way, one-factor) varianciaelemzés tulajdonságai:

Számos, általában paralel elrendezésű csoport folytonos, normális eloszlású tulajdonságának átlagát veti össze, ezen belül csak egy szempont eltérésére fókuszál.
Kiindulópontja az F-próba, ami az átlagok eltérésére karakterisztikus »csoportok közötti« varianciát veti össze a random ingadozást leíró »csoportokon belüli« varianciával.
A csoportosító változót faktornak nevezzük. Ha egy faktornak a függő változóra gyakorolt befolyását elemezzük, akkor egyszempontos varianciaanalízisről beszélünk.
A különbségek felkutatása mélyebb elemzésekkel – ismétléses vagy kontrasztbeli összehasonlításokkal – fokozható.
Példa: Többféle kezelést vagy többféle betegcsoportot hasonlítunk össze egy adott szempontra nézve.

Többszempontos varianciaanalízis[szerkesztés]

A csoportok függetlensége és többféle szempont szerinti vizsgálata esetén két- vagy többszempontos (multifactor) varianciaanalízissel vetjük össze az átlagokat.

Kétszempontos varianciaanalízis[szerkesztés]

Az összehasonlítandó egységek két független szempontból is elemezhetők (pl. kísérleti manipuláció fajtája és nemek szerint).
Ebben az esetben a két szempont (pl. a kezelések különbségei) hatása mellett vizsgálható a kettő kölcsönhatása (interakció) is.
Interakció: az egyik faktornak a függő változóra hatását módosítja a másik faktor.
Példa: A két összetevő együtt másképpen hat-e, mint egyedül (pl. a kezelések közötti eltérések függnek-e a nemtől).

Többszempontos varianciaanalízis[szerkesztés]

Az egyszempontos varianciaanalízis általánosításának tekinthető arra a helyzetre, amikor több faktornak a függő változóra gyakorolt hatását vizsgáljuk.
Többszörös kölcsönhatások is előadódhatnak.
Példa: Nemek szerint és kezelések szerint elemzést végzünk. Kísérleti személyek testtömege hogyan függ a nemüktől és a mérés idejétől?

Fő különbség az egyszempontos és többszempontos ANOVA között[szerkesztés]

Az utóbbival az egyes faktorok kitüntetett hatása mellett azok interakcióját is analizálhatjuk.

Ismételt méréses varianciaanalízis[szerkesztés]

Ha a csoportok összetartozó minták csoportjai, akkor ezt kell használjuk.

Példa: Ugyanazon egyedeken több mérést folytatnak több időpontban vagy különböző kísérleti elrendezések mellett.

A varianciaanalízis és a t-próbák összefüggései[szerkesztés]

A varianciaanalízis a t-próbák általánosítása több csoport esetére.
Varianciaanalízisnél a szórásnégyzeteket F-próbával elemezzük, így következtetünk a hatások szignifikanciájára.
Páros t-próbánál két különböző populáció elvárt értékének egyezését kutatjuk mindkét sokaságból n elemű mintát választva, ahol az adatok páronként összekapcsoltak, más szóval a minták nem függetlenek.
Ezeket az adatokat lefuttathatjuk egy véletlen és egy rögzített faktor szerinti varianciaanalízissel is.
Ilyen helyzetben rögzített faktor a két eltérő sokaság (két szinttel), a véletlen faktor az a tényező, ami alapján az adatokat párokba soroljuk (n szinttel).
A varianciaanalízisnél a rögzített faktor hatásvizsgálatára lefuttatott F-próba matematikailag bizonyítható módon azonos a páros t-próba próbastatisztikájának elemzésével.
A varianciaanalízis rögzített feltételeinek a páros t-próbánál is teljesülniük kell, a két módszer statisztikai ekvivalenciája miatt.
Az egyszempontos varianciaanalízis a független mintás t-próba általánosítása, amikor több mint két minta átlagát szeretnénk egymáshoz hasonlítani.
Két minta esetében az egyszempontos ANOVA és a független mintás t-próba eredménye megegyezik.

Számításának lépései[szerkesztés]

1. A minták azonos populációba tartoznak-e? Ha az eredménye szignifikáns (nem tartoznak egy populációba a mintáink), akkor továbblépünk és feltesszük a következő kérdést. Melyik minták átlagai különböznek szignifikánsan? Ha az első lépés eredménye összességében nem szignifikáns, akkor az átlagok közötti különbség sem, tehát a számítás befejeződik. 2. Az utólagos analízis, a páronkénti vizsgálódás, amit post hoc analízisnek is hívnak. Több módszerét is elfogadott, például Tukey-féle eljárás. A post hoc analízis jelzi, hogy mely mintapárok átlagai közötti eltérés szignifikáns.

SPSS és a varianciaanalízis[szerkesztés]

SPSS: Analyze / Compare Means / One-Way Anova vagy Analyze / General Linear Model / Univariate, ld. többszempontos ANOVA

Dependent List függő változó(k) megadására szolgáló mező
Factor csoportosító változót, független változó ide kerül
Contrasts gombbal alkalmazhatunk kontrasztokat
- Az egyes csoportok bármely kombinációinak összevetésekére használhatók
- Alapesetben két csoport összehasonlítására:

A faktor változónk elemzendő szintjeihez írjunk 1-et és -1-et, a többi szinthez 0-t

- Összetettebb kontrasztok esetében:

A kontraszt két tagját a faktor több szintjének súlyozásával határozzuk meg. Leggyakrabban az „azonos oldalon lévő” értékek összege 1 (vagy -1) legyen.

- Kontrasztokat csak a két átlag viszonyáról való előzetes hipotézis meglétekor használjunk.
Next: több összehasonlítás lefolytatása esetén
Post Hoc: post hoc elemzések
- Egyező varianciák esetén a Tukey, különböző Tamhane-próbát ajánlott.
- A posthoc elemzések ajánlottak a kontrasztok helyett, ha a futtatás után valamilyen váratlan hatást, eredményt találunk, és ennek az okára szeretnénk rájönni.
Options a leíró statisztikák bejelölésére szolgál (Descriptive), a szóráshomogenitás kontrollálása (Homogenity of Variance Test), ha a szóráshomogenitás nem teljesül, a Brown-Forsythe vagy a Welch-próbát használjuk;

Means Plot kapott eredményeink grafikus ábrázolására szolgáló gomb

Eredmények:
- Descriptives: az alapvető leíró statisztikáknak a faktorváltozó által meghatározott csoportonkénti bontásában történő bemutatása
- Test of Homogeneity of Variances: a Levene-próba eredménye a szóráshomogenitási feltétel ellenőrzésére (ha a teszt szignifikáns, a szórások nem homogének)
- ANOVA: a varianciaanalízis eredménye;
  - Between Groups sor szignifikanciája esetében, a vizsgált csoportosító változó szignifikánsan hat a függő változóra, azaz a csoportátlagok különböznek

(FONTOS! Kizárólagosan NEM jelzi a csoportátlagok páronkénti szignifikáns különbségét!)

- Robust Test of Equality of Means: a szóráshomogenitási kritérium sérülésekor, a Brown-Forsythe- vagy a Welch-próba futtatása mellett, ebből a táblázatból kiderül ezeknek az ANOVÁ-nál robusztusabb módszereknek az eredménye
- Contrast Tests: a kontrasztok szignifikanciáját tünteti fel; két sora mutatja a szórások egyezősége és különbözősége esetén számolt eredményeket

Contrast Coefficients táblázat több kontraszt számításakor ajánlott

- Post Hoc Tests – Multiple Comparisons: a post-hoc tesztek eredményét jelzi; a csoportátlagok különbözőségének szignifikanciaszintjét elemezzük.

A varianciaanalízis modellezése[szerkesztés]

Az általános lineáris modell segítségével, ami egy folytonos függő változó értékeit elemezi arra nézve, hogy a véletlen hibán kívül, mely tényezők additív hatásai érvényesülnek még.

Modellek osztályozása a szintek rögzítettsége alapján

Fix modell[szerkesztés]

A szempontok szintjei rögzítettek, fixek, a hatások konstansok (pl. a kezeléshatás).

Véletlen modell[szerkesztés]

A szempontok szintjeit véletlenszerűen választjuk (pl. a résztvevők kiválasztása, vagy az egyes vizsgálatok hatásai), a hatások valószínűségi változók (véletlen hatás).

Kevert modell[szerkesztés]

Rögzített és véletlen hatások is jelentkeznek. Ismételt méréses adatoknál célszerű, főleg, ha hiányzó értékek is előfordulnak.

Variancia-kovariancia-elemzés (ANCOVA)[szerkesztés]

Bővebben: Kovarianciaanalízis

A tényezők mellett folytonos magyarázó változókat (ún. kovariánsok) is bevonunk az elemzésbe, amelyek kihatását a célváltozóra lineáris regresszióval fejezzük ki (pl. túlélési idő függése a műtét típusának, és a beteg nemének, valamint életkorának függvényében).
Ha a kovariánstól való függés nemlineáris, értékeit csoportosítsuk, és ANOVA-t futtassunk.
Alkalmas az egyes csoportokbeli regressziós egyenesek meredekségének elemzésére.

(A meredekségek eltérését az mutatja, ha a csoport-kovariáns interakció szignifikáns.)

Azon tényezőkre, amelyeknek nem tudjuk, vagy nem akarjuk az összes szintjét elemezni. Például a mérési idő (napszak, évszak), a földrajzi elhelyezkedés, többcentrumos kutatásban a vizsgáló intézmény, a kísérletvezető, stb.
Ebben az esetben nem a figyelembe vett szintek (időpontok, földrajzi helyek, intézmények, személyek) között van-e és mekkora a különbség a lényeges a vizsgálat tekintetében, hanem hogy ezek az eltérések összességében mennyivel járulnak hozzá a vizsgált változó varianciájához (a többlet-varianciát el tudjuk választani a véletlen hibától).
Az effajta tényezőt véletlen tényezőnek: random factor, a modellt, amiben van ilyen, véletlen modellnek: random effect model nevezzük.

ANOVA a gyakorlatban[szerkesztés]

Rajzelemzés: házrajzok, farajzok, emberrajzok;
A skizofréniások és az egészségesek összehasonlítása, az átlagok egyváltozós elemzése
A skizofrénia típusainak összehasonlítása: varianciaanalízis

Hasznos linkek a témában[szerkesztés]

Keresztes Noémi, Bak Judit, Pikó Bettina: Az ifjúság egészségi állapota, (2007)

[1]^{[halott link]}

Szabó Gábor: Bevezetés a longitudinális kutatások módszertanába II. (2006. február 23.)
Vass Zoltán (1999): Projektív rajzok számítógépes elemzése
Juhász Attila, Nagy Csilla ÁNTSZ Közép-magyarországi Regionális Intézete, Budapest (2007):

A Magyarországon bevezetett haláloki statisztikai változások hatásai a Középváltozások hatásai a Közép--magyarországi Régió lakosságára vonatkozó deszkriptív epidemiológiai elemzésekben (5-10. Oldal) [2]

Ábrázolása[szerkesztés]

Hasznos szoftver: Stat Soft Hungary: Statistica

Források[szerkesztés]

Székelyi Mária - Barna Ildikó: Túlélőkészlet az SPSS-hez, Typotex, Budapest 2003
Kempelen Farkas Digitális Tankönyvtár: Paraméteres eljárások, varianciaanalízis – Kettőnél több csoport összehasonlítása folytonos adatok esetén Archiválva 2007. szeptember 29-i dátummal a Wayback Machine-ben
Egyutas varianciaanalízis (one-way ANalysis Of VAriance)-VÖCS, (2001.07.)
Fodor János: Varianciaanalízis (ANOVA) (2006. november 4.) Archiválva 2007. november 13-i dátummal a Wayback Machine-ben
Varianciaanalízis (2007. április 16-i előadás)^{[halott link]}
Szabó Gábor: Bevezetés az epidemiológiai kutatások módszertanába II. (2005. március 16.) [3]^{[halott link]}
Klinikai Biostatisztikai Társaság: Egy és többszempontos varianciaanalízis (2003. április 4.) [4]
ANOVA between groups (angol nyelvű): [5]
Ozsváth Károly: Stat Soft Statistica for Windows kezelése: Egyszempontos varianciaanalízis (One-way ANOVA) [6]
SPSS és statisztikai alapok II.: [7]

Matematikaportál • összefoglaló, színes tartalomajánló lap