Szemantikus web

A Wikipédiából, a szabad enciklopédiából
A szemantikus web strukturája

A szemantikus webnek nagyon eltérő definíciói vannak. A W3C által adott hivatalos meghatározás: „A szemantikus web egy közös keretet biztosít az adatok hátárok nélküli megosztására és újrahasznosítására az alkalmazások, intézmények és közösségek között ...” [1] A szemantikus webet mint fogalmat először Tim Berners-Lee írta le 2001-ben [2]. Valójában a szemantikus web az adatoknak és az adatokhoz kapcsolható (különböző) jelentéseknek az alkalmazások közötti megosztására szolgáló legjobb módszerek szabványainak bonyolult rendszere.

A szemantikus web az információ megosztás általánosan elterjedt megoldásává vált. Az egyik legjelentősebb szemantikus web megoldás az Európai Bizottság 2011/833/EU határozatával[3] életre hívott és 2012-ben felállított portál: Az Európai Unió Nyílt Adatportálja (European Union Open Data Portal  (EU ODP))[4]. Ez összeköti 26 tagállam kormányzatának a nyílt adatbázisait. Biztosítva ezek összekapcsolását és egyben az Unió szervezetei és polgárai számára az azokban tárolt információk elérését, lekérdezését modern SPARQL lekérdezések segítségével. Az együttműködésben csak Magyarország és Lettország kormánya nem vesz részt!

A szemantikus web kialakulása[szerkesztés]

Berners-Lee a webet elsősorban emberek által olvasható dokumentumok megosztására tervezte. A jelenlegi weblapok döntő többségén az információk eléréséhez ki kell tölteni egy kereső képernyőt majd az e célra szolgáló ablak megfelelő mezőjében elolvasni a megjelenő információt. Amennyiben az így elérhető adatokat automatizáltan kívánjuk feldolgozni, mint ahogy ezt a szállodai szobafoglalás, repülőjegy vásárlás stb. alkalmával a legtöbb utazási iroda teszi, akkor az erre szolgáló alkalmazás az információt egy meglehetősen nehézkes screen scraping(wd) ("képernyő kaparás") technikával végzi. Ez azzal jár, hogy az alkalmazásokat minden alkalommal újra kell írni, ha az információt szolgáltató webhelyen a HTML kódot módosítják. A problémának a megoldására dolgozta ki Berners-Lee 2009-ben a Linked data (wd) fogalmát[5] és a W3C a hozzá tartozó eljárásokat és szabványokat. A cél, hogy programok a web infrastruktúráját használva screen scraping nélkül érjék el a nyilvános weblapok adatait. A mindennapokban így működnek a különböző levelező ás közösségi programok, amikor automatikusan töltik ki a felhasználó naptárját az általa figyelt nyilvános weblapokon megjelenő előadások időpontjával és más információkkal. Ehhez az kell, hogy a figyelt weblapok azonosításra URI-t használjanak és az adatok megfeleljenek a RDF(wd) és SPARQL szabványoknak. Összefoglalva:

  1. URI használata a dolgok nevének megadására.
  2. a HTTP protokollon URI-k használata dolgok elérésére és feloldására .
  3. Használható információ (leírás) arról hogy az adott név minek az azonosítására szolgál. Erre a RDF, SPARQL vagy esetleg más szabvány használata.
  4. Más dolgok, weben történő nyilvánosságra hozatalakor, azokra szintén HTTP URI alapú néven kell hivatkozni.
példa szemantikus hálózatra

Az igény hogy, a szemantika leegyszerűsítve a ”szavak jelentése” a számítógép számára érthető legyen Richard Hook Richens a számítógépes nyelvészet egyik kezdeményezőjének a művében már nagyon hamar a számítógépek megjelenését követően 1956-ban megjelent. A nagyjából az időben megalkotott LISP programnyelv használta is az asszociációs listákat(wd) ilyen megfontolásból. Ekkor dolgozzák ki a az RDF szabványban fontos szerepet kapott szemantikus hálózat(wd) fogalmát is. A Linked Data elve és a hozzákapcsolódó szabványok biztosítják az az adatok könnyű cseréjét és az URI segítségével minimális szemantikai tudást is kapcsolhatunk ezekhez az elemekhez. Nyilván nem tudhatom, hogy például a PIM57433 mire hivatkozik. De ha a https://opac-nevter.pim.hu/en/record/-/record/PIM57433 URI-t látom tudom, hogy az a Petőfi Irodalmi Múzeum névterére hivatkozik és ezt a formátumot a számítógépek is megértik. A W3C ontológiai nyelve az OWL egy csomó kiegészítő információt is kapcsolhat egy URI-hoz. Például a „házastárs” egy szimmetrikus információ ha A házastársa B-nek akkor B is házastársa A-nak. Vagy a tél ellentéte a nyár a háború ellentéte a béke.

Az egységes erőforrás-azonosító[szerkesztés]

A keresett erőforrások kompakt leírására dolgozta ki Berners-Lee a mindenki által ismert egységes erőforrás-hely leírót az URL-t [6]. Ez pontosan megmondja, hogy a keresett erőforrás milyen protokollon érhető el és megadja a célgépet valamint a célgép fájlrendszerén belül a keresett erőforrás pontos helyét. Ezen a helyen egy fájlt találunk aminek a formátuma bármi lehet. Emberi fogyasztásra általában HTML formátumot használnak, de lehet ez egy .doc vagy .pdf. Tulajdonképpen bármilyen kiterjesztésű fájl állhat ott.

Az emberek többsége ennek alapján úgy gondolja, hogy minden ami HTTP(S):-el kezdődik az egy weblap, de ez egyáltalán nem így van. Ezt elkerülendő vezették be az egységes erőforrás-nevet az URN-t. Az URN egy egy adott névtéren belül használt helyfüggetlen azonosító. Tipikusan valamilyen hatóság, nemzetközi szakmai szervezet kezeli globális értelemben egyedi és hosszú időn keresztül állandó, alkalmasint még akkor is amikor az általa azonosított erőforrás már nem elérhető.

Az egységes erőforrás-azonosítót URI-t az URL és az URN egységes szabványba illesztésére alkották meg 2005-ben [7] Az URI segített megoldani egy égető problémát. Az XML jelölő nyelv egyre népszerűbb lett és az XML-t használó fejlesztők speciális feladatok megoldására egyre inkább elkezdték kombinálni a különböző domainokban található elemeket. Fel kellett oldani azt a problémát, hogy ugyanaz az elnevezés különböző domainokban mást és mást jelenthet. Erre kiválóan alkalmas egy URI. Hogy megértsük ennek a működését vegyük az előző fejezetben szereplő URI-t: https://opac-nevter.pim.hu/en/record/-/record/PIM57433 Ez egy MARCXML rekordra mutat. Ezt a rekordot a Petőfi Irodalmi Múzeum informatikusainak köszönhetően, a MARCXML sorra kattintva, ki is bonthatjuk. Itt a második sorban egy újabb URI-t találunk: <collection xmlns="http://www.loc.gov/MARC21/slim">. Ez jelzi, hogy a collection szakasz az Kongresszusi Könyvtár Marc21 szabvány alapján épült fel. Ezt a szabványt világszerte használják a könyvtárak. Tetszőleges alkalmazás a szabványos "tag"-eket felhasználva automatikus lekérdezéseket végezhet. Konkrétan ha valamelyik alkalmazás Hankiss Elemér foglalkozása után érdeklődik, a fenti két URI segítségével automatikusan kiolvassa azt, illetve ebben az esetben azokat, a <datafield ind1="1" ind2="3" tag="010"> "tag"-ekből.

Az erőforrás leíró formátum[szerkesztés]

Az erőforrás leíró formátumról (RDF), ami szintén egy W3C szabvány[8], bevezetőben a következőket kell tudni:

  • Az RDF egy adatmodell. A tárolt információk alapegységeit az úgynevezett hármasok (triple) adják.
  • Egy hármas áll egy szubjektumból egy predikátum-ból és egy objektumból. Klasszikus filozófia értelemben egy ilyen hármas tekinthető egy ítéletnek is. Egy erőforrás leíró hármas értelmezhető úgy, hogy az áll: egy erőforrás azonosítóból (szubjektum), egy tulajdonság (property) névből, és egy tulajdonság (property) értékből.
Pl. Hankiss Elemér – ez egy – ember, Hankiss Elemér – utóneve – Elemér stb…
  • Egy hármas információinak egyértelműségét az biztosítja, hogy a szubjektumok és a predikátumok kötelezően URI-k. Az objektumok lehetnek URI-k de lehetnek sima értékek is.

Ha egy objektum URI az biztosítja a lehetőséget más adatbázisban további szemantikus kapcsolatok feltárására. A lenti ábrában ilyen URI a PIM-azonosítóhoz kapcsolt érték a PIM57433" (https://opac-nevter.pim.hu/record/-/record/PIM57433) ami átvezeti a Petőfi Irodalmi Múzeum névterébe.

A fenti gráf 8 hármast ábrázol. Mindegyik hármas szubjektuma (azonosítója) a Hankiss Elemér Wikidatában található URI-ja. A predikátumokat a gráf élei jelképezik. Ezek mindegyike szintén egy-egy URI. A hármasokhoz tartozó objektumok (a predikátumokhoz tartozó értékek) lehetnek szintén URI-k, világos kékkel jelezve, vagy sima értékek mint a születési dátum.

Egy RDF tárolása diszken[szerkesztés]

RDF/XML szerializáció XML.svg
Fájlkiterjesztés .rdf
MIME-típus application/rdf+xml[9]
Fejlesztő World Wide Web Consortium
Kiadás dátuma 2004-02-10-09
RDF 1.1 Turtle szerializáció
Fájlkiterjesztés .ttl
MIME-típus text/turtle[10]
Fejlesztő World Wide Web Consortium
Kiadás dátuma 2014-01-09
Konténerformátuma ennek RDF data
Kiterjesztése ennek XML
Standard Specification

Egy RDF tárolását biztosító bájt szekvenciát, amit valahol egy diszken tárolunk, tisztán technikai értelemben szerializációnak(wd) hívjuk. Mert vannak olyan operációs rendszerek amik nem ismerik a fájl fogalmát a fájl fogalma helyett ezt a terminológiát szokás használni. A gyakorlatban minden RDF szerializáció egy szöveg fájl. Több szerializációs szabvány van, ezek különböző szintaxist alkalmaznak a hármasok reprezentációjára. Az lényegtelen, hogy ezeket a hármasokat egy diszken tároljuk, vagy valamilyen adatbázisból dinamikusan generálja valamilyen alkalmazás.

  • RDF/XML,(wd)[11] A legrégebben alkalmazott RDF szerializáció. A szabványa 1999-ben mint az RDF specifikáció része jelent meg.
  • Turtle,(wd)[12] A legnépszerűbb RDF szerializáció. Jól olvasható, egyszerűen kezelhető.
  • N-Triples,(wd)[13] Egyszerű, könnyen használható nem annyira tömör mint a Turtle.
  • N-Quads,[14][15] Az N-Triples tovább fejlesztett változata bonyolult RDF gráfok szerializációját is biztosítja.
  • JSON-LD,(wd)[16] Egy JSON alapú szerializáció.

Bölcseleti megközelítés[17][szerkesztés]

A szemantikus web lényege, hogy az interneten található információkat a keresőrendszerek ne csupán sekélyesen, hanem mélyen, valódi tartalomként kezeljék.[18] A szemantikus web egy globálisan skálázható internetet jelent, melyben a különböző forrásokból származó információk számítógépes műveletek segítségével nyerik el jelentésüket. A hasznossága egy-egy tartalomnak, információnak az alapján állapítható meg, milyen metainformációk kapcsolódnak hozzá. Ezek kiértékelése különböző informatikai módszerek alapján történik.[19] A W3C szemantikus web alatt az alábbi fogalmat érti: „a szemantikus web módszerek és technológiák összessége, melyek segítségével elérhetővé tehetjük a gépek számára az interneten található információk jelentését, szemantikáját.”[20]

A szemantikus web elképzelése két alapötletre építkezik. Az egyik: kapcsoljunk metainformációkat internetes erőforrásokhoz. Metaadatnak nevezünk egy olyan adatot, amely adat egy adatról. Például egy képről, hogy csimpánzok vannak rajta. Itt az „igazi” adat a képet leíró konkrét bitfolyam. Adat és metaadat sokszor nem választható szét élesen: ami egy szituációban adat, egy másikban lehet metaadat és fordítva. A másik lényeges alapgondolat, hogy következtetni kell tudni ezen metainformációk segítségével. A fenti esetre vonatkoztatva ez azt jelenti, hogy valamilyen úton ki kell tudni deríteni, hogy a képen állatok szerepelnek, holott a metainformáció csak annyi volt, hogy csimpánzok láthatóak rajta. Azt senki sem mondta, hogy állat is van rajta! [21]

A szemantikus web története[szerkesztés]

Tim Berners-Lee, a W3C igazgatója, a következőképp fogalmazta meg eredetileg a szemantikus web elképzelést 1999-ben: „Van egy álmom, miszerint a web(-et alkotó számítógépek) képessé válnak a weben lévő összes adat analizálására, vizsgálatára – a tartalom, linkek és tranzakciók emberek és számítógépek között. A »szemantikus web«, ami ezt lehetővé kéne, hogy tegye, még ki kell bontakozzon, de amikor ez megtörténik, a napi mechanizmusokat az üzletben, kereskedelemben, bürokráciában és a mindennapi életünkben a gépekkel kommunikáló, beszélő gépek fogják kezelni. Az »intelligens robotok«, amikre az emberek már évek óta várnak, végül valóra fognak válni.”[22]

Az eredeti szemlélet szerint a gép által olvasható metaadatok elérhetősége az automatizált robotokat és más szoftvereket képessé tenné arra, hogy sokkal intelligensebb hozzáférésük legyen a világhálóhoz. A robotok automatikusan teljesíteni tudnák a feladatokat, és képesek lennének rögzíteni a kapcsolódó információkat a felhasználó helyett.

Bár a szemantikus web terminológiája nincs formálisan definiálva, leginkább a W3C által javasolt, tervezett modell és technológiák leírására használják. Ezek közé tartozik az RDF, egy sor adatátalakító formátum és ajánlások, mint az RDFS és OWL, amelyeket mind arra tervezték, hogy a koncepciók, terminológiák és kapcsolatok egy formális leírását adják egy adott tudáshalmazon belül.

Sok W3C által javasolt technológia már létezik és sokfajta projektben felhasználták már. A szemantikus web olyan, mint egy globális szemléletmód, habár eddig még nagyrészt megvalósulatlan maradt és a kritikusai megkérdőjelezik a kivitelezhetőségét, létjogosultságát. „A szemantikus web célja egy olyan infrastruktúra létrehozása, amely lehetővé teszi a weben lévő adatok integrálását, a közöttük levő kapcsolatok definiálását és jellemzését, illetve az adatok értelmezését.”[23]

Leíró logikák[szerkesztés]

A leíró logika (description logic, DL) segítségével le tudjuk írni egy szakterület vagy egy közismereti terület fogalmi rendszerét.[24] A formalizmus alapvető építőkövei a fogalmak, amelyek egyedek halmazait reprezentálják és a szerepek, amelyek egyedek közötti kapcsolatokat írnak le és így egyedpárok halmazaként is felfoghatóak. Hogy terminológiai tudásunkat leírjuk egy adott területre vonatkoztatva, fel kell vennünk néhány atomi fogalmat és szerepet. Ezekből különféle fogalom- illetve szerepépítő műveletek segítségével összetett fogalmakat illetve szerepeket készíthetünk. Az így képzett kifejezések egyenlőségét vagy tartalmazási viszonyát terminológiai axiómák formájában fogalmazhatjuk meg. Egy adott területre vonatkozó általános tudásunkat terminológiai axiómák egy halmazával írjuk le, ezt a halmazt terminológiai doboznak, vagy T-doboznak hívjuk. A T-doboz egy konkrét megvalósulásáról szóló tudásunkat adatállítások formájában fogalmazhatjuk meg. Fogalmi- és szerepállítások egy halmazát adatdoboznak vagy A-doboznak nevezzük. Terminológiai és adatállításaink jelentését (szemantikáját) a klasszikus matematikai logikából ismert módszerekkel határozzuk meg. Az AL nyelv az atomi negálást, metszetet, értékkorlátozást és az egyszerű létezési korlátozást engedi meg, csak atomi szerepeket használhatunk benne és a szerepaxiómák sem megengedettek. Az U betűvel jelölt nyelvkiterjesztés vezeti be az unió műveletet, az E a teljes létezési korlátozást, míg a C a teljes negálást adja hozzá a nyelvhez. Az SHIQ nyelvcsalád bevezetéséhez szükségünk van az ALC nyelvhez, melyet fentebbi bővítések útján érhetünk el. Ennek egy bővítése az SHIQ nyelv, melyben tranzitivitási axiómákat is megadhatunk, azaz egyes szerepekről kijelenthetjük, hogy tranzitívak. A H nyelvkiterjesztés a szerephierarchiákat vezeti be, azaz megengedi a szereptartalmazási és –egyenlőségi axiómák használatát. Az I betű jelöli az inverz szerepek használatát lehetővé tevő bővítést, míg Q a minősített számosságkorlátozások bevezetését jelenti.[25]

Projektek[szerkesztés]

  • DBpedia
  • FOAF (Friend of a Friend)
  • SIOC (Semantically-Interlinked Online Communities)
  • Linking Open Data

A szemantikus webről bővebben[szerkesztés]

Források[szerkesztés]

  • Antoniou, Grigoris, Frank Van Harmelen. A Semantic Web Primer. MIT Press (2004). ISBN 0262012103 

Hivatkozások[szerkesztés]

  1. The World Wide Web Consortium: What is the Semantic Web? (angol nyelven), 2013. december 11. (Hozzáférés: 2017. december 8.)
  2. Berners-Lee, Tim: The Semantic Web. Scientific American, 2001. május 17. (Hozzáférés: 2017. december 8.)
  3. A BIZOTTSÁG HATÁROZATA (2011. december 12.) a bizottsági dokumentumok további felhasználásáról (magyar nyelven). Az Európai Unió Hivatalos lapja, 2011. december 12. (Hozzáférés: 2017. december 8.)
  4. EU Open Data video (angol nyelven). EU Publication Office. (Hozzáférés: 2017. december 8.)
  5. Tim Berners-Lee előadása a TED konferencián 2009-ben.
  6. Living Documents BoF Minutes (angol nyelven). World Wide Web Consortium, 1992. március 18. (Hozzáférés: 2017. december 9.)
  7. Uniform Resource Identifiers (URI): Generic Syntax (angol nyelven). Internet Engineering Task Force, 2005. január 1. (Hozzáférés: 2017. december 19.)
  8. Ralph R. Swick; Ora Lassila: Resource Description Framework (RDF) Model and Syntax Specification (angol nyelven). W3C, 1999
  9. application/rdf+xml Media Type Registration. IETF, 2004. szeptember 1. (Hozzáférés: 2017. december 10.)
  10. RDF 1.1 Turtle: Terse RDF Triple Language. W3C, 2014. január 9. (Hozzáférés: 2014. február 22.)
  11. RDF 1.1 XML Syntax. W3C, 2014. február 25.
  12. RDF 1.1 Turtle: Terse RDF Triple Language. W3C, 2014. január 9.
  13. RDF 1.1 N-Triples: A line-based syntax for an RDF graph. W3C, 2014. január 9.
  14. N-Quads: Extending N-Triples with Context, 2012. június 25.
  15. RDF 1.1 N-Quads. W3C, 2014. január 1.
  16. JSON-LD 1.0: A JSON-based Serialization for Linked Data. W3C
  17. a szócikk ezen része az ELTE Filozófia Intézet szócikkíró szemináriumán készült. 2011. januárjában
  18. Gottdank Tibor: Szemantikus web 118. oldal (ComputerBooks Kiadó, Budapest, 2005.)
  19. http://logicerror.com/semanticWeb-long
  20. "W3C Semantic Web Frequently Asked Questions". W3C. http://www.w3.org/2001/sw/SW-FAQ. Hozzáférés ideje: March 13, 2008.
  21. A szemantikus világháló elmélete és gyakorlata – 61-62. oldal, Szeredi-Lukácsy-Benkő, Typotex, 2005
  22. F. Baader, D. Calvanese, …: The Description Logic Handbook: Theory, Implementation and Applications. Cambridge University Press, 2003
  23. http://www.w3.org/2006/Talks/0318-Budapest-IH/#%2810%29
  24. F. Baader, D. Calvanese, …: The Description Logic Handbook: Theory, Implementation and Applications. 41. oldal Cambridge University Press, 2003
  25. A szemantikus világháló elmélete és gyakorlata – 227-229. oldal, Szeredi-Lukácsy-Benkő, Typotex, 2005

Külső hivatkozások[szerkesztés]