Nyelvtechnológia

A Wikipédiából, a szabad enciklopédiából

A nyelvtechnológia a számítógépes nyelvészet egy részterülete, ahol találkoznak a nyelvleírás és a szoftvertechnológia eszközei, másként a nyelvtechnológia azzal foglalkozik, hogy megvalósítsa az emberi nyelvhasználatot leíró modelleket gyakorlati módon számítógéppel. Röviden: a természetes nyelvű szövegek számítógéppel történő feldolgozásával foglalkozik.

Céljai és feladatai[szerkesztés]

Célja megvalósítani a kommunikációt ember és számítógép között természetes nyelven, továbbá megalkotni az ehhez szükséges számítógépes programokat.

A nyelvtechnológia feladatának tekinti olyan programok létrehozását, melyek információkat nyernek ki, illetve visszakeresnek, valamint nyelvi elemző rendszerek és természetes nyelvi lekérdezők megalkotása mellett a gépi fordítás fejlesztését, és a számítógéppel történő nyelvi generálást is fontosnak tartja feladatai közé sorolni.

Nyelvtechnológiai Kutatócsoport[szerkesztés]

A Magyar Tudományos Akadémia Nyelvtudományi Intézetének hat osztálya van (+ Gazdasági Osztály, Igazgatóság, Könyvtár), melyek a következők:

Az MTA Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztályán pedig négy kutatócsoport működik:

A Nyelvtechnolgiai Kutatócsoport jogelődje a Korpusznyelvészeti Osztály, így 1997 óta zajlanak kutatások, fejlesztések ennek keretein belül. Jelentős tapasztalatokat, és azok által még jelentősebb eredményeket és sikereket értek el magyar kutatók a nyelvtechnológia jegyében, Váradi Tamás[1] vezetésével, aki az MTA tudományos főmunkatársa, valamint osztályvezető.

Ez a kutatócsoport már több mint egy évtizedes múlttal rendelkezik, amely főként számítógépes nyelvészeti tapasztalatokat foglal magában. Ez elég volt arra, hogy a magyar nyelvi nyelvtechnológia meghatározó szellemi bázisává válhatott, amely többek között annak is az eredménye, hogy a kilencvenes évektől számos nemzeti és nemzetközi szakmai konferencián és workshopon vett részt aktívan és rendszeresen, valamint több nemzetközi korpuszalapú, nyelvtechnológiai projektben is közreműködött.

A kutatócsoport számos nemzetközi tervezet részese volt, mely céljául a nyugati nyelvekre kidolgozott, sztenderdként elfogadott eljárások adaptálását, valamint nyelvi erőforrások létrehozására irányuló új szabványok kidolgozását tűzte ki. A kutatóknak az ezen tervezetek során kifejlesztett és felhasznált számítógépes nyelvfeldolgozó eszközök és technológiák megismerésére is alkalmuk volt, valamint aktívan részt vettek e programok magyar nyelvre történő átültetésében.

A Magyar Nemzeti Szövegtár[2] (továbbiakban: MNSZ) első változata, mely a magyar nyelv legújabb korpusza, is ezen az osztályon készült el. Az MNSZ, mely tükrözi az írott nyelvhasználatot, 187,6 millió szóból áll, valamint reprezentatív, 2005 novemberében nemzetivé vált a határon túli nyelvváltozatokkal kiegészülve. A kutatócsoport tagjainak lehetősége volt több alapvető nyelvtechnológiai szoftvereszközt tesztelnie és fejlesztenie az MNSZ feldolgozása során eddig is sikeresen használt programok, technológiák, eljárások alkalmazásának köszönhetően.

A célok közt már említett automatikus gépi fordítás terén Prószéky Gábor cége, a MorphoLogic Kft. ért el nagy átütést. A webforditas.hu[3] honlapon 2007 óta találunk magyar-angol automatikus gépi fordító rendszert, mely mára már a magyaron kívül másik 12 nyelvvel is dolgozik. A Nyelvtechnológiai Kutatócsoport ehhez készített egy lexikai adatbázist, mely igéket illetve igei szerkezeteket tartalmaz, továbbá szintén a 2007-es évhez köthető a WordNet[4] magyar változatának[5] megszületése is, mely a szinonim szavakat és a köztük lévő relációkat térképezi fel.

A kutatócsoport profiljába beletartozik a beszédtechnológia is a nyelvtechnológia mellett, így ezzel együtt elmondhatjuk, hogy e két diszciplína területén tevékenykedő cégek szoros együttműködését is elősegíti ez a csoport. Mi sem mutatja ezt jobban, minthogy 2008-ban megalakult a Nyelv- és Beszédtechnológiai Platform nyolc partner részvételével, és ennek a platformnak a Nyelvtudományi Intézet a koordinátora. Nemzetközi viszonylatban a Nyelvtechnológiai Kutatócsoport vezető szerepet vállalt a CLARIN (Common Language Resources and Technology Infrastructure = Közös Nyelvi Erőforrások és Technológiai Infrastruktúra) projektben, mely több mint 100 európai intézményt foglal magában, melyet az Európai Unió támogat, és melynek célja létrehozni a nyelvtechnológia és a nyelvi erőforrások egy olyan infrastruktúráját, mely könnyen kiterjeszthető, mindenki számára elérhető, egységes, állandó és integrált. A magyar verziója a HunCLARIN, amely hálózat a kutatások bázisát képező nyelvi erőforrásokat és eszközöket tartalmazza. Ez a vezető hazai nyelv- és beszédtechnológiai kutatás-fejlesztést végző tudásközpontok stratégiai jelentőségű kutatásiinfrastruktúra-hálózata [1]. Olyan programokat lehet itt megtalálni, mint a HUMor magyar szóelemző program, a Hunmorph morfológiai elemző vagy a Magyar szógyakorisági adatbázis.

A helyesírás támogatása[szerkesztés]

A nyelvtechnológiának talán az egyik leghasznosabb törekvése a gépi fordítás, a fordítástámogató programok fejlesztése mellett a helyesírási tanácsadás. Ehhez persze nem ülhet ott a számítógép előtt egy nyelvész, aki állandóan online van, és válaszol mindenkinek minden helyesírási kérdésére, mint valami call-centeres dolgozó, így ebben a témakörben is a gépesítés volt és lesz is a megoldás kulcsa, ám ez jelentős nyelvtechnológiai fejlesztést igényel. A számítógép szemantikai értelmezésére nem számíthatunk a helyesírásban való segítségnyújtás kapcsán, viszont egy végeláthatatlan hosszúságú korpuszt is képtelenség lenne létrehozni ahhoz, hogy minden szónál a gép végigpörgesse az egész listát, hogy megtalálja-e benne, és hogy helyesen írta-e le az illető az adott kifejezést. Az is egy életen át tartó munka lenne, hogy valakik elkészítsék ezt a korpuszt, és még abban sem lennénk biztosak, hogy nem maradt-e ki belőle valami. Így a magyar helyesíráshoz figyelembe kell vennünk a három helyesírási alapelvet, vagyis a hangzás szerinti ejtés, a szóelemző írásmód és a hagyomány elvét. A sztenderd köznyelvtől való eltéréseket, mint a nyelvjárási vagy a szleng kifejezések, nem vehetjük figyelembe, főként azért sem, mert ezek listája folyamatosan bővül, és írásképükben sem egységesek, sőt olyan is előfordulhat, amit nem is biztos, hogy le lehet írni megfelelően – nem beszélve az idegen kifejezések magyarításairól.

Az MTA helyesírási portálja[szerkesztés]

A Magyar Tudományos Akadémia helyesírási portálja által nyújtott segédlet egyelőre elegendő lehet egy átlagos felhasználó számára, bár ennek is vannak hiányosságai, és természetesen folyamatos fejlesztés alatt áll. A számítógép semmilyen nyelvi tudásnak nincs birtokában, így az embernek kell meghatároznia egy kiindulásként betáplált tudást a rendszerbe – ez adja alapját a helyesírási programnak. Aztán kell egy szótár, melyben az összes tőszó, szóösszetétel vagy több szavas kifejezés megtalálható – utóbbinál azokra kell gondolnunk, melyek jelentése nem állítható elő elemeik jelentéséből. Emellett szükséges egy morfológiai elemző is, melynek segítségével megtudhatjuk a szóalak tövét, szófaját és a toldalékok morfológiai jellemzőit. A szótár és a morfológiai elemző egymástól függő összetevői a helyesírási programnak, ugyanis az elemzőnek egy saját szótárral kell rendelkeznie, hogy fel tudja ismerni a szótári szót és komponenseit. Ez a program nem csupán kijavít, de meg is magyarázza, miért úgy írják, ahogy. Hiszen rengeteg olyan szóösszetétel létezik, melyek külön-, kötőjellel vagy egybeírva teljesen mást jelentenek, például a tanárfeleség (tanár felesége) és a tanár feleség (olyan feleség, aki tanár). Így tehát el tudjuk dönteni, hogy az adott kontextusban, amiben használtuk a kifejezést, melyik írásmód a megfelelő szemantikailag. Persze, ez a program sok olyan terminust használ, amit egy laikus nem valószínű, hogy ért, így a magyarázat érthetőségén még dolgoznak a nyelvészek. A portál funkciói:

  • Külön vagy egybe?
  • Helyes-e így?
  • Névkereső
  • Elválasztás
  • Számok
  • Dátumok
  • Ábécébe rendezés

A rövidítések és mozaikszók mellett az írásjelek használata a legfőbb kérdéskör, ami kimaradt a funkciók közül. Mivel ez szemantika nélkül egy lehetetlen feladat a számítógép számára, ami pedig már a mesterséges intelligencia asztala, így ez a megoldásra váró projekt egy sokkal távlatibb célkitűzés lesz.

Források[szerkesztés]

  1. [2]
  2. [3]
  3. [4]
  4. [5]
  5. [6]