Nyelvtechnológia

A Wikipédiából, a szabad enciklopédiából
Jump to navigation Jump to search

A nyelvtechnológia a számítógépes nyelvészet egy részterülete, ahol találkoznak a nyelvleírás és a szoftvertechnológia eszközei, másként a nyelvtechnológia azzal foglalkozik, hogy megvalósítsa az emberi nyelvhasználatot leíró modelleket gyakorlati módon számítógéppel. Röviden: a természetes nyelvű szövegek számítógéppel történő feldolgozásával foglalkozik.

Céljai és feladatai[szerkesztés]

Célja megvalósítani a kommunikációt ember és számítógép között természetes nyelven, továbbá megalkotni az ehhez szükséges számítógépes programokat.

A nyelvtechnológia feladatának tekinti olyan programok létrehozását, melyek információkat nyernek ki, illetve visszakeresnek, valamint nyelvi elemző rendszerek és természetes nyelvi lekérdezők megalkotása mellett a gépi fordítás fejlesztését, és a számítógéppel történő nyelvi generálást is fontosnak tartja feladatai közé sorolni.

Nyelvtechnológiai Kutatócsoport[szerkesztés]

A Magyar Tudományos Akadémia Nyelvtudományi Intézetének hat osztálya van (+ Gazdasági Osztály, Igazgatóság, Könyvtár), melyek a következők:

Az MTA Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztályán pedig négy kutatócsoport működik:

A Nyelvtechnolgiai Kutatócsoport jogelődje a Korpusznyelvészeti Osztály, így 1997 óta zajlanak kutatások, fejlesztések ennek keretein belül. Jelentős tapasztalatokat, és azok által még jelentősebb eredményeket és sikereket értek el magyar kutatók a nyelvtechnológia jegyében, Váradi Tamás[1] vezetésével, aki az MTA tudományos főmunkatársa, valamint osztályvezető.

Ez a kutatócsoport már több mint egy évtizedes múlttal rendelkezik, amely főként számítógépes nyelvészeti tapasztalatokat foglal magában. Ez elég volt arra, hogy a magyar nyelvi nyelvtechnológia meghatározó szellemi bázisává válhatott, amely többek között annak is az eredménye, hogy a kilencvenes évektől számos nemzeti és nemzetközi szakmai konferencián és workshopon vett részt aktívan és rendszeresen, valamint több nemzetközi korpuszalapú, nyelvtechnológiai projektben is közreműködött.

A kutatócsoport számos nemzetközi tervezet részese volt, mely céljául a nyugati nyelvekre kidolgozott, sztenderdként elfogadott eljárások adaptálását, valamint nyelvi erőforrások létrehozására irányuló új szabványok kidolgozását tűzte ki. A kutatóknak az ezen tervezetek során kifejlesztett és felhasznált számítógépes nyelvfeldolgozó eszközök és technológiák megismerésére is alkalmuk volt, valamint aktívan részt vettek e programok magyar nyelvre történő átültetésében.

A Magyar Nemzeti Szövegtár[2] (továbbiakban: MNSZ) első változata, mely a magyar nyelv legújabb korpusza, is ezen az osztályon készült el. Az MNSZ, mely tükrözi az írott nyelvhasználatot, 187,6 millió szóból áll, valamint reprezentatív, 2005 novemberében nemzetivé vált a határon túli nyelvváltozatokkal kiegészülve. A kutatócsoport tagjainak lehetősége volt több alapvető nyelvtechnológiai szoftvereszközt tesztelnie és fejlesztenie az MNSZ feldolgozása során eddig is sikeresen használt programok, technológiák, eljárások alkalmazásának köszönhetően.

A célok közt már említett automatikus gépi fordítás terén Prószéky Gábor cége, a MorphoLogic Kft. ért el nagy átütést. A webforditas.hu[3] honlapon 2007 óta találunk magyar-angol automatikus gépi fordító rendszert, mely mára már a magyaron kívül másik 12 nyelvvel is dolgozik. A Nyelvtechnológiai Kutatócsoport ehhez készített egy lexikai adatbázist, mely igéket illetve igei szerkezeteket tartalmaz, továbbá szintén a 2007-es évhez köthető a WordNet[4] magyar változatának[5] megszületése is, mely a szinonim szavakat és a köztük lévő relációkat térképezi fel.

A kutatócsoport profiljába beletartozik a beszédtechnológia is a nyelvtechnológia mellett, így ezzel együtt elmondhatjuk, hogy e két diszciplína területén tevékenykedő cégek szoros együttműködését is elősegíti ez a csoport. Mi sem mutatja ezt jobban, minthogy 2008-ban megalakult a Nyelv- és Beszédtechnológiai Platform nyolc partner részvételével, és ennek a platformnak a Nyelvtudományi Intézet a koordinátora. Nemzetközi viszonylatban a Nyelvtechnológiai Kutatócsoport vezető szerepet vállalt a CLARIN (Common Language Resources and Technology Infrastructure = Közös Nyelvi Erőforrások és Technológiai Infrastruktúra) projektben, mely több mint 100 európai intézményt foglal magában, melyet az Európai Unió támogat, és melynek célja létrehozni a nyelvtechnológia és a nyelvi erőforrások egy olyan infrastruktúráját, mely könnyen kiterjeszthető, mindenki számára elérhető, egységes, állandó és integrált. A magyar verziója a HunCLARIN, amely hálózat a kutatások bázisát képező nyelvi erőforrásokat és eszközöket tartalmazza. Ez a vezető hazai nyelv- és beszédtechnológiai kutatás-fejlesztést végző tudásközpontok stratégiai jelentőségű kutatásiinfrastruktúra-hálózata [1]. Olyan programokat lehet itt megtalálni, mint a HUMor magyar szóelemző program, a Hunmorph morfológiai elemző vagy a Magyar szógyakorisági adatbázis.

A helyesírás támogatása[szerkesztés]

A nyelvtechnológiának talán az egyik leghasznosabb törekvése a gépi fordítás, a fordítástámogató programok fejlesztése mellett a helyesírási tanácsadás. Ehhez persze nem ülhet ott a számítógép előtt egy nyelvész, aki állandóan online van, és válaszol mindenkinek minden helyesírási kérdésére, mint valami call-centeres dolgozó, így ebben a témakörben is a gépesítés volt és lesz is a megoldás kulcsa, ám ez jelentős nyelvtechnológiai fejlesztést igényel. A számítógép szemantikai értelmezésére nem számíthatunk a helyesírásban való segítségnyújtás kapcsán, viszont egy végeláthatatlan hosszúságú korpuszt is képtelenség lenne létrehozni ahhoz, hogy minden szónál a gép végigpörgesse az egész listát, hogy megtalálja-e benne, és hogy helyesen írta-e le az illető az adott kifejezést. Az is egy életen át tartó munka lenne, hogy valakik elkészítsék ezt a korpuszt, és még abban sem lennénk biztosak, hogy nem maradt-e ki belőle valami. Így a magyar helyesíráshoz figyelembe kell vennünk a három helyesírási alapelvet, vagyis a hangzás szerinti ejtés, a szóelemző írásmód és a hagyomány elvét. A sztenderd köznyelvtől való eltéréseket, mint a nyelvjárási vagy a szleng kifejezések, nem vehetjük figyelembe, főként azért sem, mert ezek listája folyamatosan bővül, és írásképükben sem egységesek, sőt olyan is előfordulhat, amit nem is biztos, hogy le lehet írni megfelelően – nem beszélve az idegen kifejezések magyarításairól.

Az MTA helyesírási portálja[szerkesztés]

A Magyar Tudományos Akadémia helyesírási portálja által nyújtott segédlet egyelőre elegendő lehet egy átlagos felhasználó számára, bár ennek is vannak hiányosságai, és természetesen folyamatos fejlesztés alatt áll. A számítógép semmilyen nyelvi tudásnak nincs birtokában, így az embernek kell meghatároznia egy kiindulásként betáplált tudást a rendszerbe – ez adja alapját a helyesírási programnak. Aztán kell egy szótár, melyben az összes tőszó, szóösszetétel vagy több szavas kifejezés megtalálható – utóbbinál azokra kell gondolnunk, melyek jelentése nem állítható elő elemeik jelentéséből. Emellett szükséges egy morfológiai elemző is, melynek segítségével megtudhatjuk a szóalak tövét, szófaját és a toldalékok morfológiai jellemzőit. A szótár és a morfológiai elemző egymástól függő összetevői a helyesírási programnak, ugyanis az elemzőnek egy saját szótárral kell rendelkeznie, hogy fel tudja ismerni a szótári szót és komponenseit. Ez a program nem csupán kijavít, de meg is magyarázza, miért úgy írják, ahogy. Hiszen rengeteg olyan szóösszetétel létezik, melyek külön-, kötőjellel vagy egybeírva teljesen mást jelentenek, például a tanárfeleség (tanár felesége) és a tanár feleség (olyan feleség, aki tanár). Így tehát el tudjuk dönteni, hogy az adott kontextusban, amiben használtuk a kifejezést, melyik írásmód a megfelelő szemantikailag. Persze, ez a program sok olyan terminust használ, amit egy laikus nem valószínű, hogy ért, így a magyarázat érthetőségén még dolgoznak a nyelvészek. A portál funkciói:

  • Külön vagy egybe?
  • Helyes-e így?
  • Névkereső
  • Elválasztás
  • Számok
  • Dátumok
  • Ábécébe rendezés

A rövidítések és mozaikszók mellett az írásjelek használata a legfőbb kérdéskör, ami kimaradt a funkciók közül. Mivel ez szemantika nélkül egy lehetetlen feladat a számítógép számára, ami pedig már a mesterséges intelligencia asztala, így ez a megoldásra váró projekt egy sokkal távlatibb célkitűzés lesz.

Nyelvtechnológiai kutatások a BME-n[szerkesztés]

A BME (Távközlési és Médiainformatikai Tanszék) a témákat a doktorandusz képzésben vezetik elő, ahol a kiindulási pont, a társadalmi igény az interneten keletkező információmennyiség hatékony kezelése, rendszerezése, lekérdezése és keresése. Feltételezve, hogy a nagy portálok [yahoo, google, origo stb.] hierarchikus kategóriarendszerekben tárolt és kikeresett dokumentumgyűjteményeit a felhasználói visszakeresés során a felhasználás szempontjai szerint hasonló strukturált szerkezetben kell tárolni, olyan módszerekre van szükség, amelyek ezt az előkeresett anyagot minél kevesebb ráfordítással lehetőleg automatikusan és természetesen minél kisebb hibával lehessen besorolni a (felhasználó szempontjából) megfelelő kategóriákba. Az egyik lehetséges módszer kategorizálási módszer hiánya esetén a dokumentumoknak valamilyen hasonlósági reláció alapján való csoportosítása, idegen szóval klaszterezése. (A dokumentumok természetesen nem csak szöveges adatok, hanem tetszőleges entitások, például képek, paraméterek stb. is lehetnek)

A praktikus alkalmazás területei magukba foglalják a többnyelvű dokumentum-osztályozási feladatokat (multi-lingual categorization); képek megfelelő feldolgozását és osztályozását, az orvosi diagnosztizáló, döntéstámogató rendszer kidolgozását ismert kórismék és kórtörténetek alapján; többnyelvű tematikus glosszáriumok automatikus készítése stb.) témákat.

Tipikus témák:

  • Dokumentumgyűjtemények automatikus osztályozása, erre szolgáló algoritmusok
  • Mintafelismerési algoritmusok alkalmazása képek osztályozására.
  • Számítógépes nyelvtechnológia módszerek alkalmazása szöveges dokumentumok hatékonyabb feldolgozására
  • Orvosi diagnosztizáló-döntéstámogató rendszer ismert kórismék és kórtörténetek alapján

Ugyanazon a BME tanszéken Olaszy Gábor és Németh Géza foglalkozik a beszédfelismeréssel, szintetikus magyar beszédgenerálással, illetve írott szövegből hangzó beszéd generálásával. (Ugyanezzel a témával az MTA egyik intézete is foglalkozik.)

A különböző beszélő ill. beszéddel vezérelt alkalmazások (e-levél és SMS felolvasás, automatizált tudakozó stb.) képezik az alkalmazott nyelvészet tárgyát. Különösen és konkrétan foglalkoznak a beszédtechnológiai technológiák, keretrendszerek és felhasználói felületek felmérésével és elemzésével különös tekintettel a nyelvfüggési és mobil technológiai szempontokra, foglalkoznak keretrendszerek és felhasználói felületek továbbfejlesztésével és implementálásával, illetve interdiszciplináris megközelítésű, újszerű minta és tesztrendszerek tervezésével és megvalósításával, valamint felhasználó orientált értékelésével.

További kutatási téma a beszédkeltési eljárásokban egyre növekvő szerepet kaptak a nagy mennyiségű természetes beszédből álló adatbázis címkézésére, feldolgozására és az így kialakított elemek összefűzésére építő módszerek. Ennek viszonylag nagy -de kötött- szókészletű alkalmazási területeken (például időjárásjelentés, menetrend) van az elsődleges alkalmazási területe. Azonban egyre több esetben merül fel ezen technikák alkalmazása kötetlen szókészletű szövegfelolvasó rendszerekben is.

E témákhoz a szó- vagy mondat alapú beszédkeltési módszerek vizsgálata, kritikai elemzése és megvalósítása szükséges a fenti tanszéken fejlesztett Profivox TTS rendszerkörnyezetben. A fenti kutatási témában ismerni kell a korpusz alapú adatbázis módszereket és a Profivox rendszert. A kutatás konkrétan adott személy spektrális és prozódia jellemzőinek vizsgálatára irányul, változó beszédprofilok kialakítása céljából. (v.ö. fent a beszélő felismerés témával)

Olaszy Gábor publikációi: http://fonetika.nytud.hu/og/publist_hu.htm

Nyelvtechnológiai kutatások az EU kutatási központjában[szerkesztés]

Az Európai Unió Közös Kutatási Központot (Joint Research Centre vagy JRC) tart fenn a közösség kutatási céljainak érvényesítése érdekében. Ennek a központnak van egy olyan intézete, amelynek feladata, hogy például az állampolgárok védelme és biztonsága témában a megfelelő nevű intézetben (Institute for the Protection and Security of the Citizen vagy IPSC) a témába vágó kutatásokat irányítsa.

Szűkebb területet jelöl meg a nyelvtechnológiának a webtechnológiában való alkalmazása, amely a világhálón található szövegek feldolgozásával foglalkozik további, még mindig széles és általános bontásban a következő témákra koncentrálva:

  • szövegfeldolgozás
  • dokumentum visszakeresés
  • képi megjelenítés vagy vizualizáció

Az EU már régen foglalkozik ezzel a témával, bár előtte az ez irányú kutatás és „tudomány” még más neveken szerepelt. Így érthető, hogy már saját (korábbi finanszírozásban megvalósított vagy megvásárolt) termékei vagy eszközei is vannak, amelyek külön szócikket érdemelnek. A témáról bővebben itt lehet olvasni: http://www.lingforum.com

A nyelvtechnológia központ

Nyelvtechnológia központnak nevezték (HLTCentral) az interneten a beszéd- és nyelvtechnológia szakterületének lehetőségeit felvonultató tárházat, ahol a szakmát művelők ebből a témakörből, valamint a kapcsolódó területekről információkhoz juthattak. Az oldalt két uniós finanszírozású projekt tartotta fenn, az ELSENET és az EUROMAP.

A honlap az alábbi témák köré csoportosult: K+F, technológiai és üzleti fejlemények a beszéd, a nyelv, a többnyelvűség, a gépi (automatikus) fordítás és a lokalizáció területeiről az egész világról, de európai szemszögből.

A központ honlapja megszűnt.

A 6. keretprogramban (F6) az e tudományágban 2006-ig folyó kutatásokra már évekkel ezelőtt kellett pályázni konkrét tudományos témákkal és tervekkel, azonban azoknak illeszkedniük kellett az EU információs társadalmi technológia (IST vagy Information Society Technology) célrendszeréhez, és azon belül a következők programpontoknak kellett megfelelniük:

IST-2002-2.3.1.7 – Szemantikai alapú tudásrendszerek (Semantic-based knowledge systems)

IST-2002-2.3.1.6 – Multimodális interfészek (Multimodal interfaces)

Nyelvtechnológiai eredmények az Egyesült Államokban[szerkesztés]

Az Egyesült Államokban az U.S. Commerce Department’s Technology Administration elnevezésű kormányszerv NIST néven futó ügynöksége foglalkozik a HLT terén elért eredmények értékelésével. Az Information Access Division (IAD) részleg rendelkezik egy Information Technology Laboratory nevű intézettel, amely a multimédiához és más komplex információkhoz hozzáférést biztosító, fejlett technológiákról méréseket és szabványokat ad közre.

Az IASD honlapon (itt: http://www.itl.nist.gov/iad/) A beszédfelismerés mérése és kiértékelés, a beszélő azonosítása, a beszélt nyelv megértése, az információ-keresés, visszakeresés és szűrés, a dokumentum megértés, összefoglalás, és az interaktív beszédmegértés témákkal foglalkoznak. Azonban az egyes termékek vagy szolgáltatások értékeléséhez, bírálatához segítségül hívják a szélesebb felhasználói közönséget, illetve a szakembereket, ezzel is elősegítve a területen működők kapcsolatát és összefogását. Évente meghirdetik, hogy milyen témákban van szükség értékelő munkára, kritikai véleményekre. 2005-ben és 2004-ben a következő alkalmazott nyelvészeti témakörök kerültek elő ezen a honlapon: http://www.nist.gov/speech/tests/summaries/index04.htm

Nyelvek közötti információszerzés, kivonatolás és összegzés (Translingual Information Detection Extraction and Summarization vagy TIDES) főcsoportban:

  • Gépi fordítás
  • Információszerzés
  • Téma kiderítés és témakövetés
  • Új esemény felfedezése
  • Link gyűjtés
  • Történettagolás
  • Több nyelvi áttételes információ visszakeresése
  • Nagy pontosságú dokumentum visszakeresése
  • Automatikus tartalom kivonatolása
  • Entitás beazonosítása
  • Kapcsolat/Viszony felismerése
  • Összegzés
  • Dokumentummegértési konferencia
  • Információ-gazdag átírás
  • Hatékony és megfizethető beszédfelvétel újrahasznosítás
  • Beszéd írássá való átalakítása
  • Meta-adatok kinyerése
  • Beszélők naplózása
  • Akadozott beszéd felismerése
  • Beszédhatár felismerése
  • Találkozókon folytatott felismerés
  • Beszéd írott szöveggé való átalakítása
  • Meta-adat kinyerése
  • Beszélő naplózása

Ezekről (például szöveg visszakeresése vagy a beszélő felismerése) konferenciákat és további ismertetőket is szerveznek, de az egész alkalmazott nyelvészeti kutatásügy lényegében az Egyesült Államok Védelmi Minisztériumának az ARDA (Advanced Research and Development Activity = ARDA) nevű fejlett K+F kutatási projektjébe tartozik, mivel az finanszírozza.

Források[szerkesztés]

  1. [2]
  2. [3]
  3. [4]
  4. [5]
  5. [6]