Adatbányászat

A Wikipédiából, a szabad enciklopédiából

Az adatbányászat a nagy mennyiségű adatokban rejlő információk félautomatikus feltárása mesterséges intelligencia algoritmusok alkalmazásával (például neurális hálók, szabálygenerálók, asszociációs modellek). A köznyelv és különböző informatikai cégek sok mindent neveznek adatbányászatnak, de a szigorúbb szakmai terminológia szerint nem tekinthető adatbányászatnak az adatokból lekérdezésekkel, aggregálásokkal, illetve alap-statisztikai vizsgálatokkal történő információ-kinyerés.

Adatbányászat egy olyan tudományos szakterület, amely a valós életben jól megfigyelhető (értsd egzakt, zárt alakban, egyértelműen leírható) jelenségek és a jól mérhető, numerikus adatok és adathalmazok közötti összefüggéseket keresi és elemzi. Fontos kiemelni, hogy az adatbányászat e megfogalmazásban (az összefüggések keresésével) eleve kizárja a statisztikai jellemzést, hiszen az lényegében csak egy állapot leírására szolgál. Statisztikai jellemzések sokaságát, illetve az abból levonható általánosabb következtetések sokaságát ugyanakkor nem zárja ki (nagyon helyesen). A megfigyelhetőség kritériuma a definícióban azért fontos, mert egyértelműen el kell tudnunk dönteni, illetve ellenőrizni kell tudnunk, hogy a következtetés adott esetben helytálló-e. Szubjektív vagy nem egyértelműen eldönthető, esetleg vitatható dolgokat az adatbányászati módszerek legfeljebb közelítéssel tudnak megoldani, de a közelítés pontossága, jósága sosem tárható fel; azaz tökéletesen használhatatlan eredményeket kapnánk. A megfogalmazás másik erőssége, hogy ebbe az adatbányászat számos ága belefér, így pl. szövegbányászat és a génkutatás is.

Tartalomjegyzék

[szerkesztés] Története

Az adatbányászat különböző tudományterületek „keresztezéséből” jött létre, a matematika, ezen belül a statisztika és a mesterséges intelligencia módszereit használja fel nagy adatbázisokból való, nem-triviális információk kinyerésére.

A tárolókapacitás növekedésével egyre több területen kezdték el adatbázisokban tárolni az adatokat, főként a pénzügyi, telekommunikációs és kereskedelmi szektorban. Ezekben az adathalmazokban elrejtett információkat azonban nem használták ki. A gépi tanuló algoritmusok fejlődésével lehetőség nyílt arra, hogy a nagy adathalmazokat elemezzék, ezzel támogatva a döntéshozást, értékesítést, vagy akár optimalizálják az egyéb üzleti folyamatokat. Az adatbányászat mint önálló tudományterület az 1980-as években jött létre. Kezdetben a döntéshozóknak túlzottan nagy elvárásai voltak, amit az adatbányászat nem tudott teljesíteni, így sok vezető leírta a technológiát, de mára letisztultak a technológia korlátai, így sok sikeres projekt születhet.

Az adatbányászati piacnak két fő szereplőtípusa van Magyarországon: szoftvergyártó cégek, mint a SAS, IBM, Oracle és az adatbányászati fejlesztő/tanácsadó cégek. Ezen túlmenően megjelentek az nyílt forráskódú adatbányászati eszközök is, mint például a RapidMiner vagy az R programozási nyelv. Magyarországon az első adatbányászati tanácsadó cégek a 90-es évek végén alakultak.

[szerkesztés] Folyamata

Az adatbányászati folyamatnak két elfogadott szabványa is létezik, a CRISP-DM és a SEMMA, de a legtöbb cégnél saját módszertant használnak.

A módszertanok általános lépcsői:

  1. Üzleti cél megismerése, megfogalmazása
  2. Adatok megértése: Az adatbázisban tárolt adatok, kódolt információk megértése.
  3. Adatok előkészítése: A tárolt adatok legtöbbször tisztítatlanok, azaz sok hibát, elgépelést, esetleg hiányos adatot tartalmaznak, az első lépés ennek felismerése és kezelése. A tisztított adatbázis(ok)ból aztán ki szükséges válogatni a változókat, új változókat kell bevezetni, a különálló adatköröket integrálni kell, majd az elkészült adattáblából le kell válogatni azokat a sorokat, amire az adatbányászati modelleket futtatni szeretnénk.
  4. Modellezés: Ki kell választani azt a tanuló algoritmust, amivel a modellezést el szeretnénk végezni, és lefuttatni az adatokra, majd kiértékelni a pontosságát
  5. Kiértékelés: Az üzlet szempontjából is ki kell értékelni a kapott eredményeket, és felmérni, hogy alkalmazható-e a modell (bonyolultság, megtérülés)
  6. Alkalmazás (Hadrendbe állítás): Integrálás az üzleti folyamatokba

Az egyes lépéseken sorban haladnak végig a projektek során, alkalmazásuk több iterációban történik: amennyiben az egyik lépés nem sikeres, akkor visszalépések is történhetnek.

[szerkesztés] Algoritmuscsaládok, modellezési technikák

[szerkesztés] Az adatok értelmezése

Az adatoknak önmagukban nincs jelentésük; az értelmezéstől, azok feldolgozásának módjától, alkalmazásuktól nyernek értelmet, és válhatnak információvá, hasznos adatokká. Ebből következik, hogy minden adatbányászat hipotézisekkel indul, azzal az előfeltételezéssel, hogy létezik olyan összefüggés az adatok között, amely figyelmet érdemel.

[szerkesztés] Alkalmazási területek

  • Telekommunikáció: Elvándorlás előrejelzés; Díjcsomagok ajánlása; Keresztértékesítési ajánlatok; Közösségképzés; Árazás; Ügyfélszolgálat optimalizálása
  • Pénzügy: Kockázatkezelés; Hitelbírálat; Basel II követelményeinek való megfelelés; Tőzsdei predikció
  • Kereskedelem: Kampányoptimalizáció; Vásárlói kosár elemzése; Direkt reklámok; Vásárlói útvonalak feltérképezése
  • Biológia, orvostudományok: Gyógyszerkutatás; DNS elemzése

[szerkesztés] Adatbányászati szoftverek

A leggyakrabban használt adatbányászati szoftverek:

  • SAS
  • IBM SPSS Modeler (régebben SPSS Clementine)
  • Microsoft Analyis Server
  • RapidMiner
  • Weka
  • Oracle DM

[szerkesztés] Etika, adatvédelem

Az adatbányászat rengeteg etikai gondot vet fel lényegéből adódóan. Az adatok tárolásához az ügyfelek hozzájárulnak általában, mert enélkül sok helyen nem is kaphatnak szolgáltatást (pl. telekommunikációs vagy pénzügyi szektorban a számlázás, tranzakciók követése az ügyfél számára is elengedhetetlen). Azonban azt is tudatni kell velük, hogy mire lesz pontosan felhasználva a tárolt adat. Ez az adatbányászat esetében csak ritkán teljesíthető, mivel a folyamat során talált minták alapján derül ki a felhasználási terület. A másik lehetséges út, hogy ha az illető nem járul hozzá, hogy adatait adatbányászatra felhasználják, ekkor azonban amíg sok ember fog hozzájárulni adatai általános, adatbányászati célú felhasználásához, úgy mindig elég adat lesz, hogy az egyén adatait a tanító adatbázisból kihagyva rá is érvényes modellt kapjunk, amit aztán az üzleti logikába implementáljunk.

[szerkesztés] Külső hivatkozások


Adatbányászati cégek:

Személyes eszközök
Névterek

Változók
Műveletek
Navigáció
Részvétel
Nyomtatás/exportálás
Eszközök
Más nyelveken