Apache Hadoop

A Wikipédiából, a szabad enciklopédiából
Apache Hadoop
Hadoop logo.svg

Fejlesztő Apache Software Foundation
Legfrissebb stabil
kiadás
2.2.0
(2013. október 15.)
Legfrissebb fejlesztői
kiadás
0.23.10
(2013. december 11.)
Programozási nyelv Java
Operációs rendszer platform-független
Licenc Apache Licenc 2.0
Az Apache Hadoop weboldala

Az Apache Hadoop egy nyílt forráskódú keretrendszer amely adat-intenzív elosztott alkalmazásokat támogat. Nagy mennyiségű alacsony költségű, általánosan elérhető hardverből épített szerverfürtök építését teszi lehetővé. A Hadoop a Google MapReduce és a Google File System leírásaiból készült.

Történet[szerkesztés | forrásszöveg szerkesztése]

A Hadoop projectet Doug Cutting és Mike Cafarella[1] hozta létre 2005-ben. Cutting, aki akkor a Yahoo!-nál dolgozott, fiának játék elefántjáról nevezte el a projectet.[2] Eredeti céljuk a Nutch kereső elosztásának támogatása volt.

Architektúra[szerkesztés | forrásszöveg szerkesztése]

A Hadoop fő részei:

  • Hadoop Common, amely a fájlrendszerrel és a operációs rendszerrel kapcsolatos absztrakciókat tartalmazza, valamint azokat a szkripteket és programokat, amelyek a Hadoop rendszer indításához szükségesek
  • MapReduce rendszer
  • Hadoop Distributed File System-et (Hadoop elosztott fájlrendszer)

Fájlrendszerek[szerkesztés | forrásszöveg szerkesztése]

HDFS[szerkesztés | forrásszöveg szerkesztése]

A HDFS (Hadoop Distributed File System - Hadoop Elosztott Fájlrendszer) egy elosztott, skálázható és hordozható fájlrendszer, amelyet a Hadoop rendszerhez írtak Java nyelven.

Más fájlrendszerek[szerkesztés | forrásszöveg szerkesztése]

A Hadoop bármilyen elosztott fájlrendszerrel együtt tud működni, amely az adott operációs rendszeren csatlakoztatható. Ennek ugyanakkor meg van az ára: a hely információk elvesztése. A hálózati forgalom csökkentéséhez a Hadoopnak tudnia kell, melyik szerverek vannak az adathoz közel, ezt az információt tudják a Hadoop-specifikus adapterek megadni.

A támogatott fájlrendszerek között:

  • Amazon S3 fájlrendszer. Ez azoknak a fürtöknek lehet hasznos, amelyek az Amazon EC2 szolgáltatásán futnak. Ez a fájlrendszer nem veszi figyelembe a rack elhelyezést, mivel távoli eléréssel működik.
  • maprfs
  • CloudStore, amely figyelembe veszi a rack elhelyezést
  • FTP: minden adatot távolról hozzáférhető FTP szervereken tárol
  • HTTP/HTTPS: egy csak olvasható filerendszer, amely http szerverekről olvas

MapReduce implementáció[szerkesztés | forrásszöveg szerkesztése]

Közismert felhasználók[szerkesztés | forrásszöveg szerkesztése]

Yahoo![szerkesztés | forrásszöveg szerkesztése]

A Yahoo! 2008 február 19-én indította el a Yahoo! Search Webmap szolgáltatását, amely állításaik szerint 10.000 CPU-maggal a legnagyobb Hadoop-ot futtató linux cluster a világon. A rendszer által generált adatokat minden Yahoo! keresési eredmény felhasználja.

A Yahoo! több Hadoop fürtöt működtet és a HDFS fájlrendszereit valamint a MapReduce feladatait nem osztja el több adatközponton.

Facebook[szerkesztés | forrásszöveg szerkesztése]

2010-ben a Facebook állítása szerint övék volt a legnagyobb Hadoop fürt összesen 21 PB adatkapacitással[3]. 2011 július 7-én bejelentették, hogy az adatmennyiség 30 PB-ra nőtt, majd 2012 június 13-án 100 PB-ra. A cég 2012 november 8-i bejelentése szerint a Hadoop fürt tárolókapacitása nagyjából fél petabyte-tal nő.

Más felhasználók[szerkesztés | forrásszöveg szerkesztése]

Fordítás[szerkesztés | forrásszöveg szerkesztése]

Ez a szócikk részben vagy egészben az Apache Hadoop című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel.

Jegyzetek[szerkesztés | forrásszöveg szerkesztése]