Varianciaanalízis

A Wikipédiából, a szabad enciklopédiából

A varianciaanalízis számos egyező szórású, normális eloszlású csoport átlagának összevetésére alkalmas statisztikai módszer, melyet angol megnevezésének (analysis of variance) kezdőbetűiből generálva ANOVA-ként is ismernek.

Elemi információk az ANOVA-ról[szerkesztés]

Eltérő módon lerögzített varianciák segítségével viszonyítja egymáshoz a populáció különböző középértékeit. Adott vizsgálat során előálló teljes adatmennyiség, mint alaphalmaz össz-szórását, konkrétabban, összvarianciáját analizálja abból a nézőpontból, hogy ingadozás okára keresi a választ. Annak a tisztázását segíti, hogy a fentebb említett szórásbeli eltérések mögött a véletlen vagy egy másik magyarázó tényező hatása bújik-e meg. Ilyen tényezőnek tekinthető adott populáción belüli csoportok átlagai közti eltérést. A varianciák számítását és becslését arra a matematikai tényre alapozva vezeti le, hogy a teljes variancia számlálója, azaz a teljes eltérés-négyzetösszeg független elemek összegeként állítható elő, emellett a nevező, azaz a szabadsági fok az adott komponensek szabadsági fokainak összegeként áll elő.

Kutatási kérdések[szerkesztés]

  • Van-e differencia / változás a tapasztalt eredmények között?

Eltérésre, változásra keres magyarázatot.

  • Van-e hatása a kísérleti manipulációnak – a kontrollhoz viszonyítva – a célváltozóra?

Egzaktabbul az átlagra gyakorolt hatást elemzi.

Változók[szerkesztés]

  • Nominális vagy ordinális változókat intervallum szintűekkel vet össze.
  • Nominális és ordinális szintű változók: a nem, a településformák típusai…
  • Intervallumváltozók: magasság, testsúly, jövedelem, teljesítmény, fogyasztási költségek…
  • Magyarázat:

A függő változó: y= intervallumváltozó középérték mentén történő szórását részekre bontja, és ezek közül van olyan, melyet a független változó: x= nominális vagy ordinális szintű, egyúttal magyarázó változó hatásának lehet betudni.

Nullhipotézis[szerkesztés]

  • Nincs különbség az átlagok között, a kezelések/csoportok a célváltozó átlagára nézve minden mintában/kezelési csoportban azonosak.
  • Szignifikanciaszint<0,05, ekkor nullhipotézist elvetjük, van különbség, az átlagok nem egyenlők.
  • Szignifikanciaszint>0,05, ekkor a nullhipotézist megtartjuk, nincs különbség, az átlagok egyeznek.
    • Alkalmazási feltételek
      • A függő változó magas mérési szintű (legalább intervallum szintű)
      • Normál eloszlás (vagy legalább szimmetrikus)
      • A vizsgált csoportokban az elemszám közel azonos
      • A függő változó szórása azonos a csoportokban, vagy legalábbis a szórás nem korrelál a csoportátlaggal

Alternatív hipotézis[szerkesztés]

  • Nem minden átlag egyenlő, a kezelések/csoportok között különbség van.

Feltételek ellenőrzése[szerkesztés]

Az alábbi statisztikai próbákkal lehetséges:

Módszerek osztályozása[szerkesztés]

  • A vizsgálati / lefuttatási szempontok száma (egy- és többszempontos varianciaanalízis) és a minták függetlensége szerint.
  • Az ismételt méréses varianciaanalízis: legalább egy szempont szerint kapcsolódó minták.

Pl. egy szempont szerint független, a másik szerint összefüggő minták: kétszempontos ismételt méréses varianciaanalízis

  • Az ismételt méréses szempont szerint lefolytatott analízis varianciáját egyedeken belüli (within subject, intrasubject) , a független szempont szerint csoportosított egyedek közötti (between subject, intersubject) varianciával jellemezzük.

Típusai[szerkesztés]

Egyszempontos varianciaanalízis[szerkesztés]

Az egytényezős (one-way, one-factor) varianciaelemzés tulajdonságai:

  • Számos, általában paralel elrendezésű csoport folytonos, normális eloszlású tulajdonságának átlagát veti össze, ezen belül csak egy szempont eltérésére fókuszál.
  • Kiindulópontja az F-próba, ami az átlagok eltérésére karakterisztikus »csoportok közötti« varianciát veti össze a random ingadozást leíró »csoportokon belüli« varianciával.
  • A csoportosító változót faktornak nevezzük. Ha egy faktornak a függő változóra gyakorolt befolyását elemezzük, akkor egyszempontos varianciaanalízisről beszélünk.
  • A különbségek felkutatása mélyebb elemzésekkel – ismétléses vagy kontrasztbeli összehasonlításokkal – fokozható.
  • Példa: Többféle kezelést vagy többféle betegcsoportot hasonlítunk össze egy adott szempontra nézve.

Többszempontos varianciaanalízis[szerkesztés]

A csoportok függetlensége és többféle szempont szerinti vizsgálata esetén két- vagy többszempontos (multifactor) varianciaanalízissel vetjük össze az átlagokat.

Kétszempontos varianciaanalízis[szerkesztés]

  • Az összehasonlítandó egységek két független szempontból is elemezhetők (pl. kísérleti manipuláció fajtája és nemek szerint).
  • Ebben az esetben a két szempont (pl. a kezelések különbségei) hatása mellett vizsgálható a kettő kölcsönhatása (interakció) is.
  • Interakció: az egyik faktornak a függő változóra hatását módosítja a másik faktor.
  • Példa: A két összetevő együtt másképpen hat-e, mint egyedül (pl. a kezelések közötti eltérések függnek-e a nemtől).

Többszempontos varianciaanalízis[szerkesztés]

  • Az egyszempontos varianciaanalízis általánosításának tekinthető arra a helyzetre, amikor több faktornak a függő változóra gyakorolt hatását vizsgáljuk.
  • Többszörös kölcsönhatások is előadódhatnak.
  • Példa: Nemek szerint és kezelések szerint elemzést végzünk. Kísérleti személyek testtömege hogyan függ a nemüktől és a mérés idejétől?

Fő különbség az egyszempontos és többszempontos ANOVA között[szerkesztés]

Az utóbbival az egyes faktorok kitüntetett hatása mellett azok interakcióját is analizálhatjuk.

Ismételt méréses varianciaanalízis[szerkesztés]

Ha a csoportok összetartozó minták csoportjai, akkor ezt kell használjuk.

  • Példa: Ugyanazon egyedeken több mérést folytatnak több időpontban vagy különböző kísérleti elrendezések mellett.

A varianciaanalízis és a t-próbák összefüggései[szerkesztés]

  • A varianciaanalízis a t-próbák általánosítása több csoport esetére.
  • Varianciaanalízisnél a szórásnégyzeteket F-próbával elemezzük, így következtetünk a hatások szignifikanciájára.
  • Páros t-próbánál két különböző populáció elvárt értékének egyezését kutatjuk mindkét sokaságból n elemű mintát választva, ahol az adatok páronként összekapcsoltak, más szóval a minták nem függetlenek.
  • Ezeket az adatokat lefuttathatjuk egy véletlen és egy rögzített faktor szerinti varianciaanalízissel is.
  • Ilyen helyzetben rögzített faktor a két eltérő sokaság (két szinttel), a véletlen faktor az a tényező, ami alapján az adatokat párokba soroljuk (n szinttel).
  • A varianciaanalízisnél a rögzített faktor hatásvizsgálatára lefuttatott F-próba matematikailag bizonyítható módon azonos a páros t-próba próbastatisztikájának elemzésével.
  • A varianciaanalízis rögzített feltételeinek a páros t-próbánál is teljesülniük kell, a két módszer statisztikai ekvivalenciája miatt.
  • Az egyszempontos varianciaanalízis a független mintás t-próba általánosítása, amikor több mint két minta átlagát szeretnénk egymáshoz hasonlítani.
  • Két minta esetében az egyszempontos ANOVA és a független mintás t-próba eredménye megegyezik.

Számításának lépései[szerkesztés]

1. A minták azonos populációba tartoznak-e? Ha az eredménye szignifikáns (nem tartoznak egy populációba a mintáink), akkor továbblépünk és feltesszük a következő kérdést. Melyik minták átlagai különböznek szignifikánsan? Ha az első lépés eredménye összességében nem szignifikáns, akkor az átlagok közötti különbség sem, tehát a számítás befejeződik. 2. Az utólagos analízis, a páronkénti vizsgálódás, amit post hoc analízisnek is hívnak. Több módszerét is elfogadott, például Tukey-féle eljárás. A post hoc analízis jelzi, hogy mely mintapárok átlagai közötti eltérés szignifikáns.

SPSS és a varianciaanalízis[szerkesztés]

SPSS: Analyze / Compare Means / One-Way Anova vagy Analyze / General Linear Model / Univariate, ld. többszempontos ANOVA

  • Dependent List függő változó(k) megadására szolgáló mező
  • Factor csoportosító változót, független változó ide kerül
  • Contrasts gombbal alkalmazhatunk kontrasztokat
    • Az egyes csoportok bármely kombinációinak összevetésekére használhatók
    • Alapesetben két csoport összehasonlítására:

A faktor változónk elemzendő szintjeihez írjunk 1-et és -1-et, a többi szinthez 0-t

    • Összetettebb kontrasztok esetében:

A kontraszt két tagját a faktor több szintjének súlyozásával határozzuk meg. Leggyakrabban az „azonos oldalon lévő” értékek összege 1 (vagy -1) legyen.

    • Kontrasztokat csak a két átlag viszonyáról való előzetes hipotézis meglétekor használjunk.
  • Next: több összehasonlítás lefolytatása esetén
  • Post Hoc: post hoc elemzések
    • Egyező varianciák esetén a Tukey, különböző Tamhane-próbát ajánlott.
    • A posthoc elemzések ajánlottak a kontrasztok helyett, ha a futtatás után valamilyen váratlan hatást, eredményt találunk, és ennek az okára szeretnénk rájönni.
  • Options a leíró statisztikák bejelölésére szolgál (Descriptive), a szóráshomogenitás kontrollálása (Homogenity of Variance Test), ha a szóráshomogenitás nem teljesül, a Brown-Forsythe vagy a Welch-próbát használjuk;

Means Plot kapott eredményeink grafikus ábrázolására szolgáló gomb

  • Eredmények:
    • Descriptives: az alapvető leíró statisztikáknak a faktorváltozó által meghatározott csoportonkénti bontásában történő bemutatása
    • Test of Homogeneity of Variances: a Levene-próba eredménye a szóráshomogenitási feltétel ellenőrzésére (ha a teszt szignifikáns, a szórások nem homogének)
    • ANOVA: a varianciaanalízis eredménye;
      • Between Groups sor szignifikanciája esetében, a vizsgált csoportosító változó szignifikánsan hat a függő változóra, azaz a csoportátlagok különböznek

(FONTOS! Kizárólagosan NEM jelzi a csoportátlagok páronkénti szignifikáns különbségét!)

    • Robust Test of Equality of Means: a szóráshomogenitási kritérium sérülésekor, a Brown-Forsythe- vagy a Welch-próba futtatása mellett, ebből a táblázatból kiderül ezeknek az ANOVÁ-nál robusztusabb módszereknek az eredménye
    • Contrast Tests: a kontrasztok szignifikanciáját tünteti fel; két sora mutatja a szórások egyezősége és különbözősége esetén számolt eredményeket

Contrast Coefficients táblázat több kontraszt számításakor ajánlott

    • Post Hoc Tests – Multiple Comparisons: a post-hoc tesztek eredményét jelzi; a csoportátlagok különbözőségének szignifikanciaszintjét elemezzük.

A varianciaanalízis modellezése[szerkesztés]

Az általános lineáris modell segítségével, ami egy folytonos függő változó értékeit elemezi arra nézve, hogy a véletlen hibán kívül, mely tényezők additív hatásai érvényesülnek még.

  • Modellek osztályozása a szintek rögzítettsége alapján

Fix modell[szerkesztés]

A szempontok szintjei rögzítettek, fixek, a hatások konstansok (pl. a kezeléshatás).

Véletlen modell[szerkesztés]

A szempontok szintjeit véletlenszerűen választjuk (pl. a résztvevők kiválasztása, vagy az egyes vizsgálatok hatásai), a hatások valószínűségi változók (véletlen hatás).

Kevert modell[szerkesztés]

Rögzített és véletlen hatások is jelentkeznek. Ismételt méréses adatoknál célszerű, főleg, ha hiányzó értékek is előfordulnak.

Variancia-kovariancia-elemzés (ANCOVA)[szerkesztés]

  • A tényezők mellett folytonos magyarázó változókat (ún. kovariánsok) is bevonunk az elemzésbe, amelyek kihatását a célváltozóra lineáris regresszióval fejezzük ki (pl. túlélési idő függése a műtét típusának, és a beteg nemének, valamint életkorának függvényében).
  • Ha a kovariánstól való függés nemlineáris, értékeit csoportosítsuk, és ANOVA-t futtassunk.
  • Alkalmas az egyes csoportokbeli regressziós egyenesek meredekségének elemzésére.

(A meredekségek eltérését az mutatja, ha a csoport-kovariáns interakció szignifikáns.)

  • Azon tényezőkre, amelyeknek nem tudjuk, vagy nem akarjuk az összes szintjét elemezni. Például a mérési idő (napszak, évszak), a földrajzi elhelyezkedés, többcentrumos kutatásban a vizsgáló intézmény, a kísérletvezető, stb.
  • Ebben az esetben nem a figyelembe vett szintek (időpontok, földrajzi helyek, intézmények, személyek) között van-e és mekkora a különbség a lényeges a vizsgálat tekintetében, hanem hogy ezek az eltérések összességében mennyivel járulnak hozzá a vizsgált változó varianciájához (a többlet-varianciát el tudjuk választani a véletlen hibától).
  • Az effajta tényezőt véletlen tényezőnek: random factor, a modellt, amiben van ilyen, véletlen modellnek: random effect model nevezzük.

ANOVA a gyakorlatban[szerkesztés]

  • Rajzelemzés: házrajzok, farajzok, emberrajzok;
  • A skizofréniások és az egészségesek összehasonlítása, az átlagok egyváltozós elemzése
  • A skizofrénia típusainak összehasonlítása: varianciaanalízis

Hasznos linkek a témában[szerkesztés]

  • Keresztes Noémi, Bak Judit, Pikó Bettina: Az ifjúság egészségi állapota, (2007)

[1][halott link]

A Magyarországon bevezetett haláloki statisztikai változások hatásai a Középváltozások hatásai a Közép--magyarországi Régió lakosságára vonatkozó deszkriptív epidemiológiai elemzésekben (5-10. Oldal) [2]

Ábrázolása[szerkesztés]

Források[szerkesztés]