Big data

A Wikipédiából, a szabad enciklopédiából

„Big data” fogalma alatt azt a komplex technológiai környezetet (szoftvert, hardvert, hálózati modelleket) értjük, amely lehetővé teszi olyan adatállományok feldolgozását, amelyek annyira nagy méretűek és annyira komplexek, hogy feldolgozásuk a meglévő adatbázis-menedzsment eszközökkel jelentős nehézségekbe ütközik. Leegyszerűsítve a „Big data” mint fogalom, a nagyon nagy mennyiségű, nagyon nagy sebességgel változó, és nagyon változatos adatok feldolgozásáról szól.

Definíció[szerkesztés]

A „Big data” nem egy konkrét technológia, hanem régi bevált, és új technológiák szintézise. Ezek a technológiák együttesen képesek biztosítani hatalmas mennyiségű, változatos adatnak elfogadható idő alatti feldolgozását és kezelését. Biztosítják a valósidejű kiértékelést és amennyiben szükséges, a megfelelően gyors reagálást. „Big data” 3 meghatározó jellemzője, angolul a 3 V (Volume, Velocity és Variety),[1]

  • a nagyon nagy adatmennyiség,
  • a nagyon gyors adatfeldolgozás és
  • nagyon változatos adatok.

A fogalom létrejötte[szerkesztés]

Az adatfeldolgozás igénye egyidős a számítógép megjelenésével és az adatfeldolgozás elmúlt 50+ évének legfontosabb technológiai eredményei 3 nagy korszakba oszthatók. ennek a fejlődésnek a következő 4. technológia szintjét jelenti a "big data". A "big data" fogalmát 1998-ban John Mashey alkotta meg.[2]

Strukturált adatok[szerkesztés]

Az 1960-as években amikor a gazdasági életben megjelent a számítástechnika az adatokat fájlrendszerekben tároltuk. Ezekben a fájlokban tárolt adatok szekvenciálisan(wd) voltak elérhetők. A legelterjedtebb tároló a mágneses szalag volt. Az adatok elérésében a közvetlen hozzáférésű tároló eszközök (DADS) elterjedése hozott jelentős változást. Ezen az eszközök használatának elterjedése tette lehetővé a szoftverfejlesztők számára a relációs adatbázisok elvének és gyakorlatának kidolgozását. Az 1970-évek nagy találmányai a relációs adatbázis (RDBMS) és a relációs adatbázisok kezelésére az SQL nyelvek, a report program generátorok (RPG) és további adat menedzsment eszközök. Az üzleti életben a számítástechnika egyre nagyobb elterjedését a relációs adatmodell tette lehetővé. Azonban az adatbázisok létrehozása és fenntartása meglehetősen költséges és időigényes azaz lassú volt. Hamarosan kidolgozták Entity-Relationship (ER) modellt és megjelentek az adattárházak (Data warehouses). A relációs adatbázisok használata az 1990-es évek elejére vált teljes körűen elfogadottá. Napjainkban a strukturált adatok feldolgozásának leghatékonyabb eszközei a skálázható hardvereket és a virtualizációs technikákat használó relációs adatbázisokon alapuló enterprise content management rendszerek és adattárházak. Azonban a tárolókapacitások növekedésével megjelentek a BLOB-ok(wd) (binary large objects) és ezek egyre nagyobb térnyerésével az objektum orientált adatbázis kezelő rendszerek (ODBMS) is.

Web és a Content menedzsment[szerkesztés]

1989-ben a CERN-ben megszületett a világháló és elindult hódító útján az internet. Az internettel szinte egy időben megjelentek a internetprotokoll alapú intranetek. Gondoljuk csak a multinacionális vállalatok világot behálózó magánhálózataira, egyes országok közigazgatási hálózataira vagy akár a Schengeni rendszerre. Már a web megjelenése előtt is léteztek a content menedzsment rendszerek. A web fejlődése során az enterprise content menedzsment rendszerekben egyre nagyobb igény volt a klasszikus dokumentumok mellett képek, videók, filmek és más bináris adatok(wd) tárolására, kezelésére és kiértékelésére. Ezeknek a bináris adatoknak az elérése metaadatokon keresztül egyre nehézkesebbé vált ezért a századforduló idején megjelentek a különböző képfelismerő szoftverek(wd). A web fejlődése e mellett szinte kikényszerítette a megosztott rendszerek egyre szélesebb elterjedését. Megjelentek a virtuális rendszerek és virtualizáció általánossá vált. Webes környezetben az adatok tárolásának új eszközei jelentek meg a felhők (cloud computing).

Virtualizáció[szerkesztés]

Az 1990-es évek végére a számítástechnikai fejlesztések a nagy sebességű optika hálózatok és a segítségükkel kialakított felhő rendszerek tették lehetővé a fizikai korlátok legyőzését. Gazdaságossá vált az adatok valósidejű tárolása és feldolgozása. Maguk a legfontosabb technológiák: a virtualizáció, a párhuzamos feldolgozás, az osztott fájlrendszerek (distributed fájl systems), in-memory adatbázisok(wd) legalábbis elvi szinten korábban is ismertek voltak azonban csak a századvég technológia fejlődése tette lehetővé gazdaságos alkalmazásukat. A nagy teljesítményű hardverek szolgáltatta lehetőségekhez új szoftver megoldásokra is szükség volt, a meglévő adatbányászati és content menedzsment eljárások mellett. Ilyen új technológia például a Hadoop és a MapReduce. A fejlesztések motorjai a nagyvállalatok, elsősorban bankok és a tudományos kutatás volt. De megjelentek a kormányok is. A terrorizmus elleni harc a „big data” egyik fő motorja. Érdemes átgondolni milyen elképesztően nagy mennyiségű adatot kellett feldolgozni, hogy az interneten rendelt vegyi anyagok, és kamerafelvételek alapján megtalálják a Teréz körúti robbantót.

Infrastruktúra[szerkesztés]

A „Big data” létezésének alapfeltétele a megfelelő fizikai infrastruktúrának (hardver támogatásnak) a megléte. Az infrastruktúrának biztosítania kell a megfelelő performanciát(wd), azaz a rendszer nagyon nagy érzékenységgel kell, hogy rendelkezzen. Másik kulcsszempont a rendelkezésre állás. Csak százszázalékos rendelkezésre állás mellett van értelme egy ilyen rendszert üzemeltetni. Követelmény ezen kívül a megfelelő skálázhatóság is, mivel a Big data egyik meghatározó tulajdonsága a nagyon nagy és folyamatosan bővülő adatállomány. És ezen kívül figyelembe véve az adatok nagyon változatos voltát a rendszer flexibilitása is kihívások elő állítja az üzemeltetőt. A rendszernek redundánsak és rugalmasnak (öngyógyítónak) kell lennie.

Tároló rendszerek[szerkesztés]

A hagyományos fájlrendszereket nem nagy léptékű adatfeldolgozásra tervezték. A modern tendencia nagy mérető kötegelt adatcsomagok (több megabyte-nyi adat) egyben történő írása és olvasása. Az információk felhasználóbarát megszervezésének legfontosabb szempontja a hatásfok. Az adatok nagyon nagy mennyisége egyben azt is jelenti, hogy az adatokat több gép között disztributív módon kell elosztani. Ennek megfelelően több különböző a POSIX szabványnak megfelelő speciális technológia jelent meg. Kettő a legfontosabbak közül:

  • Amazon S3 (Simple Storage Service) lehetővé teszi nagy adatcsomagok tárolását online szervizekbe szabványos HTTP web protokollt használva.
  • Apache Hadoop distributed file system-et a MapReduce és a MapReduce-hez hasonló alkalmazások támogatására dolgozták ki. Ezek nagy mennyiségű kötegelt adat olvasására és írására szolgálnak.

Szerverek[szerkesztés]

A „Big data” elképzelhetetlen a felhők nélkül. Egy informatikai rendszer kiépítéséhez a felhasználók ma már nem nagy hardver komplexumokat vásárolnak vagy leasingelnek(wd) hanem sokkal inkább virtuális szervereket(wd) bérelnek. Ennek rengeteg előnye van. Gazdaságosan és gyorsan lehet nagy számítógépfürtöket létrehozni, rugalmasan változtatható a virtuális gépek száma ami fontos lehet sok alkalmazásnál. Ennek megfelelően megjelentek az informatikai piacon a felhőket biztosító megoldások.

  • Az Amazon EC2 (Amazon Elastic Compute Cloud) egyszerűen fogalmazva egy virtuális-számítógép kölcsönző. Ahol szükség szerint bérelhető különböző tároló és CPU konfigurációkból álló virtuális-számítógép. A bérlő komplett linux vagy windows szervert kap, ahová gyökér-felhasználóként(wd) léphet be és lehetősége van a saját alkalmazásainak felinstallálására. A rendszert szükséglet szerint rugalmasan konfigurálható. Ezek virtuális gépek és az Amazon adatközpontjának fizikai gépein futnak.[3]
  • Google App Engine (GAE) egy felhőrendszer platform. Tipikus megvalósítása egy PaaS (platform mint szerviz) platformnak. Feladata a Google által üzemeltetett adatközpontokban platformot biztosítani webes alkalmazások fejlesztésére és hossztolására(wd). Az ügyfél Javaban, JVM-ben vagy Pythonban írja webszolgáltatásait. Futtatásakor az App Engine gondoskodik róla, hogy az alkalmazás skálázható legyen, azaz ki tudjon szolgál nagyon sok szimultán kérést. Az EC2-től éltérően itt a felhasználónak korlátozottak a futtató környezet ellenőrzési lehetősége.
  • Heroku(wd) egy PaaS felhőplatform. Több, különböző web alkalmazás fejlesztésére alkalmas, programnyelvet támogat. A Heroku volt az egyik legelső felhőplatform. Kezdetben csak a Ruby nyelvet támogatta később ezt más nyelvekre is kiterjesztették (Java, Node.js, Scala, Clojure(wd), Python, PHP, és Go). A fejlesztőknek lehetőséget biztosít, hogy azonos formában írhassanak, tesztelhessenek és futtathassanak skálázható alkalmazásokat különböző nyelvi környezetben.[4]

Kommunikációs réteg[szerkesztés]

Minden adatfeldolgozási rendszerben, így a „big data”-ban is, fontos szerepet kap a kommunikációs réteg. Az adatbázisok táplálás, a fontos adatok kinyerése internet protokollon keresztül történik. Ezeknek az interfészeknek a megtervezése és üzemeltetése mind a szervezeten belül, mint az adott szervezet és a külvilág között sok kihívással jár.

Ezeket a feladatokat a programozók ősidők óta API-k segítségével oldják meg. API toolkitek (eszközrendszerek) sokasága áll rendelkezésre. Ezeket különböző speciális problémák megoldására hozták létre. Ha valakinek egy webes vagy egy mobilalkalmazás fejlesztésénél valamilyen API-ra van szüksége több lehetőség között válogathat. „Big data” környezetben a hagyományos API-k mellet új eszközök is megjelentek.

  • REST (Representational State Transfer) egy szoftverarchitektúra-típus elosztott, gyengén kapcsolt rendszerek számára. Magyarul egy olyan API csomag amely elsődleges célja, hogy egy nagy hálózat (pl.: a világháló) különböző erőforrásai (szerverek, kliensek, proxyk, átjárók(wd)) között kapcsolatot biztosítson.
  • Másik fontos kommunikációs eszköz, a webszolgáltatások egyik legfontosabb komponense a SOAP. A Szolgáltatásorientált architektúra. Ez szintén lazán kapcsolt rendszerek számára ad biztonságos, és szabványos komponenseket - szolgáltatásokat. Ezek a folyamatok folytonos változásának, megújulásának megfelelően újra felhasználhatók, újra kombinálhatók.

A kommunikációs rétegnél kell szólni a Natural Language Processing-ről – „NLP” vagy (természetes nyelvű adatfeldolgozás). Ez egy nagyon perspektivikus interfész fejlesztési irányzat. Az NLP lehetővé teszi az adatbázis-lekérdezést természetes nyelvi eszközökkel. Nyilván egy „big data” felhasználónak egyszerűbb feltenni a kérdést: „Listázd ki az összes házas, 30 és 40 év közötti, férfi, Szeged körzetében lakó, FTC drukkert” mint megírni egy 20-25 soros SQL lekérdezést.[5]

Adatanalízis[szerkesztés]

Gondoljuk át például a BKK Futár rendszerét. Ez egy mindannyiunk életben jelenlévő „big data” rendszer. A Futár rendelkezik minden meghatározó (3V) jellemzővel. A nagy mennyiségű nagyon gyors adatforgalomról gondoskodik a BKV mintegy 3000 járműve. Ezek pillanatnyi helyzetének koordinátáit folyamatosan szolgáltatják a járműveken elhelyezett GPS készülékek. Ehhez kapcsolódnak a Budapest forgalmát figyelő köztéri kameráktól és az útkereszteződésekben elhelyezett érzékelőkből érkező információk. A rendszer feladat ezeknek az adatoknak folyamatos figyelése, szükség esetén automatikus vagy emberi beavatkozások biztosítása. Statisztikai adatgyűjtés és analízis.

A „big data” legnagyobb kihívása a felhalmozott nagyon nagy mennyiségű adat felhasználás orientált kiértékelése, értelmezése. Itt a felhasználás módjától és az adatgyűjtés céljától függően a legkülönbözőbb megoldások vannak. Fontos terület a statisztikai analízis. Nagy előny, hogy a klasszikus üzleti intelligencia rendszerekben alkalmazott leíró statisztikai módszerek mellett a nagy adatmennyiség lehetővé teszi matematikai statisztikai módszerek alkalmazását is.

Az analízisek eredményeit emberi fogyasztásra alkalmassá kell tenni. Ezt vagy a statisztikai programokhoz kapcsolódó megoldások biztosítják, gráfokkal, grafikonokkal vagy azoktól független vizualizációs rendszerek.

  • Az R egy szabad, nyílt forráskódú, professzionális és folyamatos fejlesztés alatt álló, statisztikai szoftvercsomag. Statisztikai megoldások széles körét tartalmazza (lineáris és nemlineáris modellezés(wd), klasszikus statisztikai próbák, idősoranalízis, klaszterezés stb.).[6] Az R nyelv/szoftver csomag integrálható Hadoop környezetben és más streaming nyelvekkel is használható.
  • Az IBM’s BigSheets egy felhő alkalmazás. Segítségével strukturált és strukturálatlan adatállományokon végezhetők ad-hoc analízisek. Lehetőséget biztosít elmélyült informatikai ismeretekkel nem rendelkező üzleti felhasználóknak is a „big data” kiértékelésére. Jól használható Apache Hadoop és MapReduce környezetben.[7]

Vizualizáció[szerkesztés]

A Panama-akták kapcsolati hálója Gephiben megjelenítve

A „big data” adatok felhasználók számára fogyaszthatóvá tételéhez különböző vizualizációs alkalmazásokat használunk. Ilyenek például a Gephi(wd), a Graphviz, a Processing, a D3.js(wd), a Google Fusion Tables(wd), vagy a Tableau.

  • Gephí egy nyílt forráskódú hálózatanalízist és vizualizációt támogató Javaban írt alkalmazás. A feldolgozatlan adatokat élek és csomópontok létrehozásával gráfokba rendezi. Nagyon jól használható szociális hálók kiértékelésénél és vizualizációjában. Alkalmazzák LinkedIn, Facebook és Twitter környezetben is a kapcsolati hálók feltárására. Több különböző elrendezést tartalmaz sokféle paraméterrel.
  • Google Fusion Tables a Google által adatmenedzsmentre, a Google Docs részeként, biztosított webszerviz. Adatgyűjtésre, adatvizualizációra és adatmegosztásra használható. A legkülönbözőbb grafikonok és diagram típusokat tartalmaz, de lehetőséget biztosít az adatok térképen történő megjelenítésére is.
  • Tableau eredetileg asztali alkalmazások grafikai támogatására írt program. Később a Tableau nagyszámú tartalom létrehozást (content creation) és online publikációt támogató megoldással bővült és nagyon népszerűvé vált a sajtóban, elsősorban a nagy online hírszolgáltatók körében. A Fusion Tableshez hasonlóan térképen is megjeleníthetők vele az adatok.

Etikai problémák[szerkesztés]

A „big data” önmagában mint adatállomány és a hozzátartozó informatikai környezet erkölcsileg értelmezhetetlen. Azonban a „big datát“ használó személyekkel, szervezetekkel kapcsolatosan már nem mondhatjuk el ezt. A „big data” hatalmas lehetőség mind gazdasági szempontból mind az emberek életminőségének(wd) javítása szempontjából, de ezzel együtt hatalmas veszélyt is jelent mivel tág teret ad a személyiségi jogok megsértésére. És a lehetőségek és veszélyek egyensúlyának megtalálása korunk egyik legnagyobb erkölcsi kihívása. A „big data“ technológia lényegéből következik, hogy nehéz megtalálni a technológia természetéből következően, — egyik oldalon az üzleti érdekek (elektronikus kereskedelem stb.), másik oldalon szociális hálók által képviselt veszélyek, (Twitter, Facebook, Wikipédia, stb.) — között az erkölcsileg még elfogadható használatot.

A személyiségi jogok kérdése[szerkesztés]

A „big data“, különösen a szociális háló részét képező oldalak LinkedIn, Facebook és Twitter, de a különböző gazdasági szervezetek, vagy kormányok által üzemeltetett „big data“ adatállományok is, töménytelen személyes adatot, információt tartalmaznak. És itt ne csak a legszűkebben vett személyes adatokra (pl.: születési hely, idő, stb.) gondoljunk. Mert akár egy a Facebookra feltöltött fénykép is tartalmazhat védendő személyes adatot a helyszíntől a társaságtól függően. Ezek az adatok, és főleg az ezekből az adatokból adatbányászati eszközökkel kinyerhető személyiségi profilok, amennyiben illetéktelen kezekbe kerülnek vagy az adatgazdák jogellenesen használják fel ezeket, alkalmasak a törvényben nevesített személyhez fűződő jogok a becsület védelme, az emberi méltóság védelme, a jó hírnév védelme, a képmás és hangfelvétel oltalma, a személyes adatok védelme megsértésére. A személyes adatok védelme világszerte fontos kérdés. A fejlett államok törvényhozásai a „big data“ térhódításával rákényszerültek adatvédelmi törvények megalkotására. Az egyesült államok elnöke 2012 februárjába terjesztette be az USA személyes adatok védelméről szóló törvényét.[8] A Magyar Parlament 2011-ben fogadta el az információs önrendelkezési jogról és az információszabadságról szóló törvényt.[9] Az Európai Bizottság a tagországok adatvédelmi hatóságaival együttműködve 2012-től dolgozik az Unió adatvédelmi direktíváinak kidolgozásán. A reguláció 2016. május 24-én lépett életbe és a tagországoknak 2018. május 6-ig kell jogrendszerükbe beépíteni azt.[10][11]

Jegyzetek[szerkesztés]

  1. Laney, Douglas: 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. (Hozzáférés: 2016. december 8.)
  2. John R. Mashey: Big Data ... and the Next Wave of InfraStress. Slides from invited talk. Usenix, 1998. április 25. (Hozzáférés: 2016. szeptember 28.)
  3. EC2 for Poet. (Hozzáférés: 2016. december 12.)
  4. Heroku Inc (US). (Hozzáférés: 2016. december 12.)
  5. Welcome to Apache OpenNLP. (Hozzáférés: 2016. december 14.)
  6. GNU R: szoftver, programozási nyelv, közösség. (Hozzáférés: 2016. december 15.)
  7. gain insights for your business and customers with IBM BigSheets (pdf). (Hozzáférés: 2016. december 15.)
  8. CONSUMER DATA PRIVACY IN A NETWORKED WORLD (pdf). (Hozzáférés: 2016. december 17.)
  9. 2011. évi CXII. törvény az információs önrendelkezési jogról és az információszabadságról.. (Hozzáférés: 2016. december 17.)
  10. Data protection Documents. (Hozzáférés: 2016. december 15.)
  11. Protection of personal data. (Hozzáférés: 2016. december 15.)

Források[szerkesztés]

  • Pete, Warden. Big Data Glossary. O’Reilly Media. ISBN 9781449314590 (2011) 
  • Hurwitz, Judith, Nugent Alan, Dr. Halper Fern, Kaufman Marcia. Big Data for Dummies. John Wiley & Sons, Inc.. ISBN 9781118504222 (2013) 

További információk[szerkesztés]