Adatbányászat

A Wikipédiából, a szabad enciklopédiából

Az adatbányászat a nagy mennyiségű adatokban rejlő információk félautomatikus feltárása különféle algoritmusok alkalmazásával. Több definíciója ismert és elfogadott. Magyarországon a leggyakrabban adatbányászat alatt újszerű, érvényes, nem triviális és vélhetően hasznos és magyarázható összefüggések keresését értik nagy adathalmazban[1]. Más megfogalmazásban 3É, azaz érdekes, értékes, értelmes összefüggések keresése nagy adathalmazokban az adatbányászat célja. A megfogalmazásokban szereplő szavaknak különös súlya van és egyik sem elhagyható (ahogyan sokan teszik).

Az újszerűség azt foglalja magában, hogy jelenleg a területi szakértők által még nem ismert összefüggések feltárására törekszünk, meglévő tudás kinyerése, bizonyítása ugyan lehet mellékhatás, de sosem cél. Érvényesnek kell lennie a felmérésnek, azaz vizsgálni kell azt a kérdést is, hogy a kinyert összefüggés a valósággal összhangban van-e, más jelenségek is alátámasztják az összefüggést, nem csak az adatok valamilyen sajátos rendezése folytán jutottunk-e az adott következtetésre. A vélhető hasznosság hangsúlyozása azért fontos, mert az adatbányászatnak mindig üzleti célúnak és szemléletűnek kell lennie; értékelni kell minden esetben, hogy egy-egy feltárt összefüggés hordoz-e értéket potenciálisan a szervezet számára. Végezetül magyarázhatónak kell lenni az összefüggésnek, azaz fel kell tárni azt, hogy miért és hogyan jutottunk egy következtetésre, nem elegendő elfogadni az eredményeket; a szervezetbe való beilleszthetőségének, a döntéshozók felelős döntésének ez elengedhetetlen része.

Adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. szövegbányászat és a génkutatás is. Szűk értelemben azonban adatbányászat alatt a strukturált, adatbázisokban tárolható adatokon értelmezett összefüggés-kereső tevékenységeket értjük.

Az adatbányászat egyes elemeit több szempont alapján szokás osztályozni. Adattípusok alapján beszélhetünk:

  • Strukturált adatok esetében
    • strukturált adatbányászatról
    • folyamjellegű (strukturált) adatbányászatáról (web kattintások, idősorok, gének, gráfok és hang - ami egy speciális idősor - tartozik jellemzően ide)
  • Nem strukturált adatok esetében
    • szövegbányászatról
    • képanalízisről (kép alapú adatbányászatról)
    • videó analitikáról (videó alapú adatbányászatról)

Éppennyire gyakori azonban a cél szerinti osztályozás is, amely értelemszerűen valamely adattípushoz inkább kötődik, de a sajátos feladat határozza meg az alkalmazható eljárások körét. Ilyen például - a teljesség igénye nélkül:

  • (web-, kép-, videó-, név- stb.) keresés
  • webbányászat
  • ajánló rendszerek
  • érzelemdetekció (szentiment elemzés)
  • génkutatás
  • gépi látás
  • biometrikus azonosítás (aláírás, arcfelismerés, hangfelismerés, mozgásfelismerés stb.)

Története[szerkesztés | forrásszöveg szerkesztése]

Az adatbányászat különböző tudományterületek „keresztezéséből” jött létre, a matematika, ezen belül a statisztika és a mesterséges intelligencia módszereit használja fel nagy adatbázisokból való, nem-triviális információk kinyerésére.

A tárolókapacitás növekedésével egyre több területen kezdték el adatbázisokban tárolni az adatokat, főként a pénzügyi, telekommunikációs és kereskedelmi szektorban. Ezekben az adathalmazokban elrejtett információkat azonban nem használták ki. A gépi tanuló algoritmusok fejlődésével lehetőség nyílt arra, hogy a nagy adathalmazokat elemezzék, ezzel támogatva a döntéshozást, értékesítést, vagy akár optimalizálják az egyéb üzleti folyamatokat. Az adatbányászat mint önálló tudományterület az 1980-as években jött létre. Kezdetben a döntéshozóknak túlzottan nagy elvárásai voltak, amit az adatbányászat nem tudott teljesíteni, így sok vezető leírta a technológiát, de mára letisztultak a technológia korlátai, így sok sikeres projekt születhet.

Az adatbányászati piacnak két fő szereplőtípusa van Magyarországon: szoftvergyártó cégek, mint a SAS, IBM, Oracle és az adatbányászati fejlesztő/tanácsadó cégek. Ezen túlmenően megjelentek az nyílt forráskódú adatbányászati eszközök is, mint például a RapidMiner, a Konstanz Information Miner (KNIME), az Orange Canvas vagy az R programozási nyelv. Magyarországon az első adatbányászati tanácsadó cégek a 90-es évek végén alakultak.

Az adatbányászat mint folyamat[szerkesztés | forrásszöveg szerkesztése]

Az adatbányászati folyamatnak több kidolgozott eljárása is létezik, amely többnyire valamilyen termékhez kapcsolódik. A legismertebbek Magyarországon az SPSS (ma IBM) 5A (Assess, Access, Analyze, Act, Automate), a SAS SEMMA[2] (Sample, Explore, Modify, Model, Assess) eljárása, a KDD Process[3] és a CRISP-DM[4] (CRoss Industry Standard Process for Data Mining), ami egy ipari szabvány; de a legtöbben saját módszertant használnak. Bár ezek a módszertanok különböző részelemekre fókuszálnak attól függően, hogy milyen termék vagy a létrehozását támogató kör támogatta, összességében nagyon hasonló eljárásokról beszélünk. Az 5A és a SEMMA elsősorban magára az elemzésre fókuszál, a CRISP-DM pedig az üzleti környezetbe való beágyazást tekinti a kiindulási állapotnak.

Egy sikeres adatbányászati projekt legfontosabb lépcsői:

  1. Üzleti környezet, kiindulási állapotok megismerése, a célok pontos megfogalmazása és finomítása.
  2. Általános etikai kérdések tisztázása: a rendelkezésre álló adatok üzleti és személyi érzékenységének felmérése, szükség esetén anonimizálása.
  3. Adatok felmérése: az adatbázisban tárolt adatok, a keletkezésük, változásuk, értékük, eltérésük, pontosságuk, valamint az adatokban kódolt információk megértése.
  4. Tesztelési környezet kialakítása: meg kell határozni, hogy mely adatokon lehet/szabad a modelleket felépíteni és melyeken kell, illetve hogyan kell az ellenőrzést elvégezni.
  5. Adatok módosítása, értékelése, előkészítése (módszertanonként eltérő névvel illetik ezt a szakaszt): számos származtatott, normalizált, vagy másképpen módosított adatokra van szükség egy ideális modell kialakításához; esetlegesen pedig szükség lehet jellemzők (attribútumok) elhagyására is.
  6. Modellezés: a megfelelő algoritmus (hipotézis) kiválasztása és a modell paramétereinek kiszámítása, a létrehozott modellek hangolása
  7. Értékelés: a modell jóságát, helyességét ellenőrizni kell, meg kell vizsgálni, hogy a meghatározott célokkal mennyiben van összhangban, hol biztos és bizonytalan a modell, és fel kell mérni, hogy alkalmazható-e a modell (bonyolultság, megtérülés)
  8. Alkalmazás (Hadrendbe állítás): integrálás az üzleti folyamatokba, kommunikáció (a működés hátoldalainak és előnyeinek tárgyalása, az eredmények terjesztése), oktatás.

Az egyes lépéseken sorban haladnak végig a projektek során, alkalmazásuk azonban több iterációban történik. Minden szakaszban új ismeretre lehet szert tenni - ha másért nem, hát azért, mert látjuk, hogy helyes-e egy-egy hipotézis vagy sem -, amelyet a megelőző szakaszokba integrálva új optimumpont keresését és kiválasztását teszi lehetővé.

Algoritmuscsaládok, modellezési technikák[szerkesztés | forrásszöveg szerkesztése]

  • Előrejelzés: jelenleg még nem ismert / nem létező érték becslése, közelítése múltbéli tapasztalatok alapján.
  • Osztályozás: felügyelt tanulás - a rendelkezésre álló elemek előre meghatározott osztályokba való sorolása, amelynek során azt tanulja meg az algoritmus folyamatos pozitív és negatív megerősítések segítségével, hogy mi alapján lehet az egyes elemeket a megfelelő csoportba, osztályba tenni. Tipikusan felismerési feladatok tartoznak ide.
  • Regresszió: általában létező, megismerhető, de hiányzó értékek becslése más paraméterek segítségével (pl. valakinek a korát becsüljük egyéb jellemzőiből)
  • Szegmentálás/klaszterezés: felügyelet nélküli tanulás - a rendelkezésre álló elemek csoportosítása valamilyen tulajdonság alapján. Az osztályozással szemben itt nincs megerősítés, az algoritmus maga keres kohéziót az adatok között, illetve közvetlenül nem befolyásolható, hogy milyen tulajdonság alapján alakuljon ki a csoport. Tipikusan az ügyfélkör pontosabb megismerésére használt eljárási technika.
  • Idősorelemzés: sorrendfüggő, vagy egymást követő adatsorok elemzése, pl. EKG görbék, hangok, tőzsdei árfolyamok, génszekvenciák tartoznak ide. Kevésbé nyilvánvaló, de pl. az aláírás-felismerés egyes esetei is ide sorolhatóak.
  • Gráfmintázok keresése vagy gráfbányászat: hálózatok- és azokban szereplő személyek viselkedésének elemzése, pl. véleményvezérek, kulcsoldalak (webkeresés) azonosítására.
  • Gyakori mintázatok és asszociációs szabályok kinyerése: előre nem ismert, de jellemző összefüggések vagy viselkedési minta feltárása a feladat.

Alkalmazási területek[szerkesztés | forrásszöveg szerkesztése]

Az adatbányászati eszköztárat és módszertant mindenhol lehet alkalmazni, ahol adatok keletkeznek. Az alkalmazási technikák terjedése a legjobban fizetett területektől terjed a kevéssé tőkeképes területek felé; éppen ezért megfigyelhető, hogy a banki és gyógyszerészeti alkalmazásoktól az autógyártáson át vezet az út a mezőgazdaság és az oktatás felé. Példák alkalmazási területekre:

  • Telekommunikáció: Elvándorlás előrejelzés; Díjcsomagok ajánlása; Keresztértékesítési ajánlatok; Közösségképzés; Árazás; Ügyfélszolgálat optimalizálása
  • Pénzügy: Kockázatkezelés; Hitelbírálat; Biztonsági pénzkihelyezési (pl. BASEL II/III) követelményeinek való megfelelés; Tőzsdei előrejelzés
  • Kereskedelem: Kampányoptimalizáció; Vásárlói kosár elemzése; Direkt reklámok; Vásárlói útvonalak feltérképezése; Vásárlói viselkedés-feltárás
  • Orvostudományok: Gépi diagnosztika (betegség-feltárás); Génkutatás
  • Gyógyszeripar: Gyógyszerkutatás; DNS elemzése; Hatásfok-kutatás; Gyógyszerterítési és -fogyasztási predikció
  • Állatorvosi alkalmazások: Félautomatikus etológiai vizsgálatok (mintázatkeresés); Betegség-felderítés
  • Biztonságtechnika: Epizódkutatás; Csalásdetekció; Bűncselekmény-felismerés; Arcfelismerés
  • Mezőgazdaság: Viselkedés-elemzés; Távérzékelés; Génjavítás; Élőkörnyezeti hatáselemzés
  • Autóipar: Gyalogos-felismerés; Táblafelismerés; Baleseti helyzet-felismerés
  • Sport: Teljesítmény-elemzés
  • Katonai alkalmazások: Objektumazonosítás (pl. barát-ellenség)
  • Oktatás: Ideális tanulási menetrend készítése; Teljesítmény-predikció
  • Régészet: Lelőhely-keresés; Tárgydetekció; Korbecslés

Adatbányászati szoftverek[szerkesztés | forrásszöveg szerkesztése]

A leggyakrabban használt adatbányászati szoftverek:

  • SAS
  • Microsoft Analyis Server
  • RapidMiner
  • Konstanz Information Miner (KNIME)
  • Orange Canvas
  • Weka
  • Oracle Data Miner (ODM)
  • R

Etika, adatvédelem[szerkesztés | forrásszöveg szerkesztése]

Az adatbányászat rengeteg etikai gondot vet fel lényegéből adódóan. Az adatok tárolásához az ügyfelek hozzájárulnak általában, mert enélkül sok helyen nem is kaphatnak szolgáltatást (pl. telekommunikációs vagy pénzügyi szektorban a számlázás, tranzakciók követése az ügyfél számára is elengedhetetlen). Azonban azt is tudatni kell velük, hogy mire lesz pontosan felhasználva a tárolt adat. Ez az adatbányászat esetében csak ritkán teljesíthető, mivel a folyamat során talált minták alapján derül ki a felhasználási terület. A másik lehetséges út, hogy ha az illető nem járul hozzá, hogy adatait adatbányászatra felhasználják, ekkor azonban amíg sok ember fog hozzájárulni adatai általános, adatbányászati célú felhasználásához, úgy mindig elég adat lesz, hogy az egyén adatait a tanító adatbázisból kihagyva rá is érvényes modellt kapjunk, amit aztán az üzleti logikába implementáljunk.

További információk[szerkesztés | forrásszöveg szerkesztése]

Adatbányászati cégek[szerkesztés | forrásszöveg szerkesztése]

Magyarországon is jelenlevő nemzetközileg ismert cégek

Hazai ismert vállalkozások

Források[szerkesztés | forrásszöveg szerkesztése]

  1. Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. (1992.). „Knowledge Discovery in Databases: An Overview”. AI Magazine 13 (3), 57-70. o.  
  2. SAS Institute; SAS Enterprise Miner - SEMMA, 2010
  3. Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996.). „From Data Mining to Knowledge Discovery in Databases”. AI Magazine 17, 37-54. o.  
  4. Shearer, C. (2000.). „The CRISP-DM Model: The New Blueprint for Data Mining”. Journal of Data Warehousing 5 (4), 13-22. o.