Lineáris diszkriminancia-analízis

A Wikipédiából, a szabad enciklopédiából

Lineáris diszkriminancia-analízis a statisztikában, minta-felismerésben és gépi tanulásban használt módszer, amely a független változók olyan lineáris kombinációját képes megtalálni, amely a függő változó alapján kialakított csoportokat a lehető legjobban megkülönbözteti (diszkriminálja).

Hasonló eljárások[szerkesztés | forrásszöveg szerkesztése]

A diszkriminancia-analízis szorosan kapcsolódik a varianciaanalízishez és a regresszióanalízishez, amelyek úgyszintén egy függő változót igyekeznek kifejezni más változók lineáris kombinációjaként. Azonban míg e két utóbbi eljárásnál a függő változó folytonos változó, addig a diszkriminancia-analízisnél ez kategorikus változó. Ellentétben a varianciaanalízissel, ahol kategorikus független változókkal magyarázzuk a folytonos függő változókat, a diszkriminancia-analízis esetében folytonos független változók mellett kategorikus függő változókat használunk. A regresszióanalízis pedig abban különbözik a diszkriminancia elemzéstől, hogy esetében magas mérési szintű folytonos függő és független változók szerepelhetnek az elemzésben. Kategorikus független változók esetén az ekvivalens eljárás a megfelelési diszkriminancia-analízis.

Független változó Függő változó
Diszkriminancia-analízis Folytonos Kategorikus
Logisztikus regresszió Folytonos Kategorikus
Varianciaanalízis Kategorikus Folytonos
Lineáris regresszió Folytonos Folytonos
Megfelelési diszkriminancia-analízis Kategorikus Kategorikus

A logisztikus regresszió a leginkább hasonló eljárás a diszkriminancia-analízishoz, tekintve, hogy a kategorikus függő változó magyarázatára használható. A logisztikus regresszió abban az esetben választandó eljárás, ha nem ésszerű feltételezni a független változók normális eloszlását, amely a diszkriminancia-analízis szükséges feltétele. Emellett a diszkriminancia-analízisnek feltétele a homoszkedaszticitás és szükséges, hogy a magas mérési szintű független változók egy értelmes magyarázó-struktúrába legyenek rendezhetőek. Ezekre a feltételekre a logisztikus regresszió nem érzékeny. Külön problémát jelenthet diszkriminancia-analízis esetében a diszkrimináló függvények nehéz értelmezhetősége, míg a logisztikus regresszió esetében bonyolultabb statisztikai konstruktumokkal kell szembenéznie a felhasználóknak.

A módszer[szerkesztés | forrásszöveg szerkesztése]

A diszkriminancia-analízis központi lépése a diszkrimináló függvény(ek) kiszámítása. A szükséges diszkrimináló függvények száma úgy számítható ki, hogy a függő változók száma -1 és a független változók száma közül a kisebbet kell venni. Ha tehát két csoportunk van és két folytonos független változók (ú.n. prediktor változók), akkor egy diszkrimináló függvényünk lesz. Ellenben négy csoport és két folytonos prediktor változó esetén kettő. A diszkrimináló függvény általános képlete az alábbi: Dj = d0j + d1jx1 + d2jx2 + ... + Dkjxk , ahol j az adott diszkrimináló függvény sorszáma, az xi-k a mért független változók, d0 konstans, a dij a xi mért változók j-edik diszkrimináló függvényhez tartozó együtthatója. A függvény akkor optimális, ha a függő változó által meghatározott csoportok közötti külső négyzetösszeg és a csoportokon belüli négyzetösszeg hányadosa maximális. A négyzetösszeg a variancianalízisben használt heterogenitást kifejező átlagos négyzetes eltérést jelenti. A Wilks-féle lambda, amely a csoportokon belüli átlagos négyzetes eltérés és teljes átlagos eltérés aránya, megadja a diszkrimináló függvény jóságát. Értéke egy 0 és 1 közötti szám. 0-hoz közelítő értékek esetén a csoportokon belüli variabilitás kicsi, ami azt is jelzi, hogy függvényünk jól diszkriminál a csoportok között. Ezzel szemben az 1 közeli érték azt jelzi, hogy a csoporton belüli négyzetösszeg közel áll a teljes négyzetösszeghez, és így a csoportok közötti négyzetösszeg kicsi, ami azt mutatja, hogy a függvény kevéssé tudja a csoportokat jól megkülönböztetni.

Felhasználása[szerkesztés | forrásszöveg szerkesztése]

Csőd-előrejelzés[szerkesztés | forrásszöveg szerkesztése]

Könyvelési adatokon és pénzügyi változókon alapuló csőd-előrejelzési modellek közül a diszkriminancia-analízis volt az első statisztikai modell, amely előrejelezte, mely cég ment csődbe, illetve kerekedett felül a problémáin. Annak ellenére, hogy könyvelt pénzügyi változók ritkán normáleloszlásúak, amivel megsértik a diszkriminancia-analízis előfeltételeit, Edward Altman 1968-as modellje a mai napig a vezető eljárás ezen a területen.

Arcfelismerés[szerkesztés | forrásszöveg szerkesztése]

A számítógépes arcfelismerés során minden arcot nagyszámú képpont reprezentál. A diszkriminancia-analízis ebben az esetben arra használható, hogy az osztályozás előtt lecsökkentsük a változók számát kevesebb változóra. Minden egyes új dimenzió (változó) a képpont-értékek lineáris kombinációja, amely egy mintát (template) alkot. A Fisher-féle lineáris diszkriminancia-analízist használva úgynevezett Fisher-arcokat kapunk, míg a főkomponens-analízis révén kialakított arcok az eigenface-ek. Az így létrehozott „arcok” felismerhetőek a számítógép számára eltérő megvilágítás, helyzet, stb. esetén, és jóval kisebb adatcsomagot jelentenek, mint egy képpontokban leképezett arc.

Marketing[szerkesztés | forrásszöveg szerkesztése]

A marketing területén a diszkriminancia-analízis felhasználható arra, hogy egy empirikusan összegyűjtött adatsor alapján meghatározzuk, mely faktorok különítik el a vásárlókat vagy termékeket két vagy több csoportra. Manapság erre a célra a logisztikus regresszió szélesebb körben használt eljárás. A diszkriminancia-analízis használata a marketingben az alábbiak szerint foglalható össze:

  1. A kutatási kérdés megfogalmazása és az adatok összegyűjtése. Először meg kell határozni azokat a kitüntetett jellemzőket, amelyek alapján a vásárlók értékelik a terméket. Ezután kvantitatív marketing technikákkal (pl. kérdőíves felmérésekkel) a potenciális vásárlók egy csoportján fel kell mérni az adott termék minden lényeges sajátosságát. Ez az adatgyűjtési szakasz általában marketing szakemberekre hárul. A kérdőívben 1-től 5-ig (vagy 7-ig ill. 10-ig) kell értékelni a terméket több (átlagosan 5 és 20 közötti) sajátosság tekintetében. Ezek az alábbiak lehetnek: a használat egyszerűsége, súly, pontosság, tartósság, szín, ár vagy méret, stb... Az értékelési szempontok nagyban függenek a termék mibenlétététől. Ugyanezen szempontok alapján értékelik a potenciális vásárlók a többi terméket. Az adatokat lekódolják, beviszik egy statisztikai programba, mint pl. R, SPSS vagy a SAS. (Eddig a lépésig a teendők megegyeznek a faktor-analízissel.)
  2. A diszkrimináló függvények kiszámítása és statisztikai szignifikancia és validitás meghatározása. A diszkrimináló függvények olyan függvények, amelyek a legnagyobb különbséget produkálják a kategorikus függő változó által definiált csoportok között. Az első lépés a megfelelő diszkriminancia-analízis eljárás kiválasztása. A közvetlen módszer esetében a független változók egyszerre kerülnek be az eljárásba, és így számítjuk ki a diszkrimináló függvényeket. A lépcső-módszer esetében egymást követően kerülnek be a független változók a modellbe. A kétmodelles eljárás alkalmazandó abban az esetben, ha függő változónak két szintje van. A többszörös diszkriminancia-analízis pedig akkor szükséges, ha három vagy több függő változónk van. Az SPSS-ben a Wilks-féle lambda, míg a SAS programban az F-statisztika tájékoztat bennünket a szignifikanciáról. A diszkrimináló függvények alapján a statisztikai programok lehetőséget biztosítanak arra, hogy a függő változó csoportjaiba tartozó személyeket vagy termékeket újra klasszifikáljuk, így tesztelve, hogy a diszkriminancia-analízisben kialakított magyarázótér mennyire hatékony.
  3. Kétszintű függő változó esetén felrajzolhatóak az eredmények egy kétdimenziós diagramon. A termékek vagy csoportok távolsága jelzi, hogy azok mennyire különbözőek. A diagram tengelyeit a kutatóknak kell elnevezniük. Az ábra értelmezése sokszor erősen szubjektív.

Pszichológia[szerkesztés | forrásszöveg szerkesztése]

A diszkriminancia-analízis lehetőséget biztosít arra, hogy magas mérési szintű, folytonos független változók alapján magyarázzunk egy alacsony mérési szintű, kategoriális függő változót. Ha például az a célunk, hogy meghatározzuk, hogy egy munkahelyre milyen személyiségű, végzettségű személy a legalkalmasabb, akkor felhasználva egy adatbázist, kialakíthatunk egy modellt. Ehhez szükséges, hogy az adatbázisunkban megtalálható legyen a korábban felvett személyek személyiségére és attitűdjeire vonatkozó tesztek eredményei magas mérési szinten (pl. 1-5-ig terjedő Likert-skálán). Illetve szükséges a későbbi beválás kategorikus változója (pl. bevált-e a munkatárs? igen vs. nem). A statisztikai programunk képes kiszámolni, hogy milyen személyiségi és attitűdbeli értékek jártak együtt a későbbi beválással. Mindezt diszkrimináló függvény képében jeleníti meg, amely a legjobban elkülöníti a két csoportot. Ennek a függvénynek a felhasználásával a későbbiekben jelentkező munkatársakra lehet előrejelzést tenni, hogy személyiségük és attitűdjeik alapján be fognak-e válni vagy sem. Hasonló modellt lehet építeni több más kutatási kérdés megválaszolására is. Pl. a vizsgált személy későbbiekben depressziós (skizofrén, stb.) lesz-e vagy sem. Mivel a diszkriminancia-analízissel kialakított modell képes jóslatokra, ezért jelentősége főként azokon a területeken van, ahol konkrét anyagi érdek fűződik ahhoz, hogy a későbbi jelenségeket előrejelezzék. A módszer szükségességét csökkenti, hogy a függő változó alacsony mérési szintű (pl. bevált-e a munkatárs vagy sem), amelyet általában lehet magasabb mérési szintű változóval helyettesíteni (1-5-ig mennyire vált be a munkatárs). Illetve a diszkriminancia-analízis érzékenysége a normális eloszlásra csökkenti a módszer felhasználhatóságát, ezért helyette a logisztikus regresszió használatos sok esetben.

Fordítás[szerkesztés | forrásszöveg szerkesztése]

  • Ez a szócikk részben vagy egészben a Linear discriminant analysis című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel.

Források[szerkesztés | forrásszöveg szerkesztése]

  • Székelyi Mária, Barna Ildikó: Túlélőkészlet az SPSS-hez. Budapest, Typotex Kiadó, 2005. ISBN 963 9326 42 9

További információk[szerkesztés | forrásszöveg szerkesztése]