Gépi fordítás

A Wikipédiából, a szabad enciklopédiából

A gépi fordítás olyan automatikus fordítási eljárás, amelynek során egy adott nyelvű szöveget egy másik nyelvre számítógépes program segítségével fordítanak le.

Leírás[szerkesztés | forrásszöveg szerkesztése]

A szövegek gépi fordítására ma már nagyszámban léteznek számítógépes programok, de ezek felhasználási területe még korlátozott. Elsősorban olyankor lehetnek hasznosak, ha a cél a megértés vagy az információszerzés, amikor segítségükkel az idegen nyelvet egyáltalán nem beszélők a számukra érthetetlen szövegek fő tartalmi vázáról képet nyernek. Másik elterjedt alkalmazásuk, amikor a gyors áttekintés vagy kereshetőség érdekében nyersfordítást kell készíteni egy szövegről. A programok általában arra még nem alkalmasak, hogy a gépi fordítás utólagos kézi szerkesztésével az emberi fordítással azonos minőségű fordítást gyorsabban állítsák elő.

Többféle probléma nehezíti az ilyen programok tökéletes működését:

  • Az azonos alakúság, azaz hogy egy szó többféle jelentéssel is rendelkezhet, így például a vár szó szövegkörnyezettől függően a várakozásra és az erődítményre egyaránt utalhat.
  • Az egyes nyelvekre jellemző kifejezésmódok, állandósult szókapcsolatok, szóhasználati sajátosságok felismerése. Ezekre az jellemző, hogy a szerkezet elemeinek együttes jelentése nem azonos a kifejezés jelentésével, például a „Nyugtával dicsérd a napot!” elemeinek automatikus lefordításával a közlő eredeti szándékától teljesen eltérő jelentésű mondatot kapunk. A fordítóprogramokkal szemben támasztott elvárás, hogy a kifejezések minden formáját felismerjék (szám, igeidő, igemód stb.), és a másik nyelvű helyes jelentést megmutassák. Emellett fel kell ismerniük, hogy az adott esetben egyáltalán kifejezésszerű használatról van-e szó, vagy esetleg csak az adott szavak fordítását kellene használni. A kifejezések fordítására már elég régóta kifejezésgyűjteményeket használnak a programok, amelyek azonban nem oldják meg tökéletesen a kifejezések felismerését.
  • Szintaktikai nehézségek, azaz például a „Látom a hölgyet a távcsővel” mondat triviális jelentése mellett utalhat arra is, hogy egy olyan hölgyet látok, akinél távcső van.

További részproblémák is származhatnak a fentiekből, melyek következtében anyanyelvi olvasók számára megmosolyogtató eredményei lehetnek az utólagos gondozás nélküli, teljesen automatikus gépi fordításnak.

Ismertek próbálkozások korpuszszintű fordítóprogramok előállítására. A korpusz ez esetben nagy mennyiségű, gépen tárolt fordítást jelent. Új szöveg esetén a fordítóprogram megpróbálja a tárolt szövegek valamelyikét a fordítandó szövegre illeszteni. Mindezt a környezettel súlyozva teszi, tehát például biológiai szöveg esetén először a biológiai tárgyú szövegek között keres.

A gépi fordítás fő válfajai:

  • Direkt avagy szóról szóra való gépi fordítás: A fordítás végén az egyes szavakat és szórendet a célnyelv szabályai szerint helyesbítik. Kezdetleges módszer, amely általában rossz minőségű, érthetetlen eredményt ad. Ennek ellenére még ma is születnek ilyen megoldások, mert a kifejlesztésük olcsó és gyors.
  • Szabályalapú gépi fordítás (Rule Based Machine Translation, RBMT): A fordítás mechanizmusa beépített szótáron és nyelvtani szabályokon alapul. Az elemzési folyamat során a forrásnyelvi mondatokhoz egy belső reprezentációt (általában fastruktúrákat) rendelnek. A szöveg generálása ezen belső reprezentáció célnyelvi kifejtése. A fordítás történhet közvetlenül a két nyelv között (transzfer) vagy közvetítőnyelven keresztül (interlingua).
  • Példaalapú gépi fordítás (Example Based Machine Translation, EBMT): Alapja a fordítómemória, melyben gyakran előforduló mondatokat és/vagy kifejezéseket tárolnak. A fordítandó mondathoz leghasonlóbb tárolt mondatokból rakják össze a lefordított mondatot.
  • Statisztikai alapú gépi fordítás Statistics Based Machine Translation, SBMT): A módszer egy beépített szövegkorpuszon alapul. A gép a fordítás előtt nagyszámú lefordított szöveget elemez, aminek során előáll egy szótár és egy nyelvtaniszabály-gyűjtemény, a fordítás ezek alapján történik. Ez a módszer ma igen népszerű, mert nem igényli az adott nyelvek ismeretét. Ugyanakkor a fordítási minőség emiatt általában rossz. A Pentagon és a Google Fordító ma ezt a módszert használja, mivel így nincs szüksége emberi közreműködésre a szabályok leírásához.
  • Emberi közreműködéssel végzett fordítás (Human Aided Machine Translation, HAMT): A gép és az ember párhuzamosan segítik egymást a fordításban. Hosszabb mondatok esetén a program az embertől kér értelmezési segítséget, vagy arra kéri az embert, hogy a hosszú mondatokat lerövidítse (ún. irányított nyelv). Azonos alakú szavak esetén szintén az embernek kell helybenhagynia a helyes szó használatát.

A gyakorlatban használt rendszerek sokszor sokféle módszer keverékéből állnak össze. A szabályalapú és a példaalapú módszereket használják a leggyakrabban.

A piaci helyzet megtévesztő. Látszólag sok fordítóprogram létezik, valójában ugyannak a programnak a különféle alkalmazásait látjuk viszont. Így például a Systran program működik a Babelfishben, a Google keresőben, az AltaVistában és a WordLingóban is.

A piacon sok alkalmazást neveznek fordítóprogramnak, ez azonban félrevezető, mert durva segítségnél többet nem nyújtanak, mi több, a fordítás után sokszor teljesen értelmetlenné válhat az eredeti szöveg.

A fordítási segítségek közül említésre méltóak az ún. fordítómemóriák (angolul translation memory), melyek a program használatával párhuzamosan tanulnak, azaz megjegyzik a kézi fordításokat, és kívánságra ezeket illesztik be a fordítandó szövegbe. Lehetnek hasznosak, de bizonyos esetekben kontraproduktívak is.

További információk[szerkesztés | forrásszöveg szerkesztése]

Magyar nyelvű fordítóprogramok

Egyéb fordítóprogramok

Fordítómemóriák

Szabad forráskódú fordítók