Fordítómemória

A fordítás olyan folyamat, amely során különböző szövegeket egyik nyelvről a másik nyelvre ültetünk át. Ezek a fordítandó szövegek gyakran hasonlítanak egymáshoz: az ügyfelek a saját tevékenységi körükkel kapcsolatos szövegeket fordíttatnak, a fordítók pedig egyrészt többé-kevésbé állandó ügyfélkörrel dolgoznak, másrészt sokszor specializálódnak egy-egy témára. A számítógépes fordítástámogatás lényege a hasonlóságok kihasználása, ennek talán legfontosabb eleme a fordítási memória vagy fordítómemória.

A fordítási környezet alapmoduljai[szerkesztés]

Egy teljes fordítástámogatási környezet legfőbb elemei a fordítási memória vagy fordítómemória (translation memory), a szövegpárhuzamosító (aligner), a terminológiakezelő (term base) és az integrált környezetek esetében a szövegszerkesztő. A szövegszerkesztő nem minden esetben része a környezetnek, bizonyos alkalmazások beépülnek a Microsoft Office alá.

A fordítómemória olyan adatbázis, amelyben fordítási egységeket (forrásszegmenseket) és a hozzá tartozó fordításokat (célszegmenseket) tároljuk. A fordítási egység legtöbb esetben a mondat, de szegmensről beszélünk, mert egyrészt vannak olyan fordítómemóriák, amelyek bekezdésekkel, és vannak olyanok, amelyek mondatnál kisebb egységekkel dolgoznak, másrészt nem minden esetben sikerül számítógéppel egy szöveget pontosan mondatokra bontani.

Amikor a fordítási környezet szövegszerkesztőjében fordítunk, szegmensenként haladunk. Minden szegmens lefordítása után beírhatjuk azt a fordítómemóriába.

A szegmensek egy indexelt adatbázisban tárolódnak, amelyekben n-gramok segítségével gyorsan kereshetők a hasonlóságok.

Ha a szövegszerkesztőben olyan mondatot találunk, amelyhez hasonlót már fordítottunk, azaz amilyet eltároltunk a fordítómemóriában, az automatikusan megjelenik, a program pedig a legtöbb esetben színekkel jelöli a különbséget a fordítandó mondat és a fordítómemóriából megjelenő mondat között. A hasonlóság fogalmát a fordítómemóriák statisztikai módon értelmezik, az a szegmens hasonló, amely csak kevés szóban, karakterben tér el. Nyelvi intelligenciával ezek a programok nem rendelkeznek, de ennek ellenére jelentős költségmegtakarítást lehet velük elérni. A hasonlóságot egyetlen százalékos érték jelzi, konkrét megvalósítástól függ, hogy milyen százalékos érték mennyire megbízható találatot ad.

Fordítómemóriát viszont nemcsak fordítás közben hozhatunk létre. A szövegpárhuzamosító modul segítségével beolvashatunk egy dokumentumot és annak fordítását, és a program statisztikai eszközökkel megpróbálja megállapítani, melyik mondat minek a fordítása. Ez viszonylag jó pontossággal automatikusan meghatározható, de a modul felhasználói felületén lehetőségünk nyílik az automatikus párhuzamosítás hibáinak kijavítására. Az így meghatározott mondatpárok szintén bekerülnek a fordítómemóriába, így ezeket is felhasználhatjuk. Tehát a fordítási környezet bevezetése előtt elkészített fordítások is újrafelhasználhatók. Szövegpárhuzamosító modullal nem minden környezet rendelkezik, és több olyan környezet van, amelyben a szövegpárhuzamosító modul nem intelligens, csupán annyit tud, hogy mind a forrásoldalt, mind a céloldalt felosztja szegmensekre, és az azonos sorszámú szegmenseket összerendeli. Fontos szempont, hogy a szegmensek a szövegpárhuzamosítás során legyenek összevonhatóak és szétvághatóak, hiszen a szöveg automatikus szegmensekre vágása során előfordulhatnak hibák.

A fordítómemóriában nagyon fontos, hogy milyen hosszú egy szegmens, hiszen egy ötszavas mondat csak kis eséllyel "hasonlít" egy tízszavas mondathoz. Egyes programok azonban engedélyezik a töredékillesztést, amelynek során ha a fordítandó szegmens részstringje megtalálható a fordítómemóriában, a program találatot ad.

Akkor, ha bizonyos kifejezések fordításából akarunk "szótárat" építeni, a terminológiakezelőt használjuk. A tárolt terminusok forrásnyelvi kifejezések célnyelvi megfelelővel. A szövegszerkesztőben automatikusan megjelenik, ha valamit megadott módon kell fordítani. A terminológiai modul alkalmazása jelentősen növeli a fordított szöveg következetességét.

Egyre fontosabb, de fordítók által még kevéssé használt eszköz a konkordancia, amely egy adott szó vagy kifejezés előfordulását keresi meg a fordítómemóriában, és megmutatja az olyan szegmensek fordításait, amelyeknek forrásoldalán szerepel az adott szó vagy kifejezés.

A fordítástámogatás alapmoduljai mellett fontos a statisztika, amellyel becsülhető a munkaráfordítás. A fordítási környezet lényege a termelékenység, az, hogy egységnyi fordítást kevesebb idő alatt tudjunk elvégezni, mint fordítási környezet nélkül. A statisztikai modul elemzi, hogy mennyi megtakarítást fog hozni a fordítómemória alkalmazása az adott dokumentumok fordítása esetén. A legtöbb fordítási környezet csak annyit képes megmondani, hogy egy meglévő fordítómemória mennyit képes lefedni a fordítandó szövegből, de egy-két újabb környezet képes homogenitásvizsgálatot végezni, megbecsülni azt is, hogy a fordítómemória alkalmazása révén mennyi megtakarításunk lesz a szöveg fordítása során a szöveg belső hasonlóságai révén – azaz fordítómemória nélkül is előre látszik a megtakarítás.

Csoportos fordítás[szerkesztés]

Egyes fordítási környezetek támogatják a csoportos munkát is kliens-szerver architektúrájuk révén. Ez az a terület, ahol a fordítási környezetek alkalmazása nem csupán költséget takarít meg, hanem a minőséget is jelentősen javíthatja. Hagyományos, szövegszerkesztőben történő fordítás esetén ugyanis ha egy hosszabb szöveget rövidebb részekre vágnak, és azt kiadják különböző fordítóknak, a fordítók nem látják egymás munkáját, nem tudják, a másik mit hogyan fordított. Ez terminológiai előkészítéssel valamilyen szinten ellensúlyozható, de a hálózati fordítási környezetben mindkét módszer – mind a terminológiai előkészítés, mind a hálózati együttműködés – használható. A hálózati munkavégzés során a fordítómemória és a terminológiai adatbázis a szerveren tárolódik, és a fordítók ide írják be újabb javaslataikat, újabb fordításaikat. Ezáltal ha egy fordító olyan szegmenshez érkezik, amelyhez hasonló már szerepel a fordítómemóriában, beillesztheti a másik fordító fordítását. Ugyanígy ha valaki szakkifejezést javasol, más fordítók is láthatják javaslatát. Ha pedig valaki kíváncsi, hogy egy kifejezést mások hogyan fordítottak, a konkordancia révén megnézheti.

A szerverhez legtöbb esetben nem szükséges dedikált gép, hanem egy otthoni számítógépen, ADSL-kapcsolaton keresztül is képes működni. A jobb hálózati környezetek rendelkeznek olyan funkcióval, amely a fordítónak beállítja a saját fordítási környezetét.

Fájlformátumok[szerkesztés]

Különböző szoftverek különböző fájlformátumokat képesek támogatni. Minden fordítási környezet támogatja a Microsoft Word formátumait, a DOC-ot és RTF-et. A legtöbb környezet támogatja az Office további formátumait is, azonban sok környezet nem tudja kezelni a beépülő szövegdobozokat. Egyéb támogatott formátumok: XML, HTML, Adobe Framemaker MIF, Adobe InDesign, QuarkXPress stb. Egyre népszerűbbé válik a programok kompatibilitását megoldani kívánó XML alapú XLIFF formátum is.

Kompatibilitás[szerkesztés]

A különböző fordítómemóriák egymással általában kompatibilisek, mivel kezelik a TMX (Translation Memory eXchange) formátumot. A teljes kompatibilitáshoz azonban szükséges a szegmentációs szabályok egyezése is, amelyre szintén létezik szabvány, az SRX. A programok és a szegmentáció különbözőségei miatt nem szabad azonban 100%-os kompatibilitást elvárni: az ismert fordítástámogató programok különböző verziói sem 100%-osan kompatibilisek egymással! Reálisan kb. 95-98% kompatibilitás várható el, amelyet a fordítási környezetek kényelme bőven ellensúlyoz. Több fordítómemória rendelkezik ún. kétnyelvű belső formátumokkal. Ilyen például a Trados TTX, amelyet több program kezel, vagy a MemoQ Bilingual.

Szóstatisztika[szerkesztés]

A fordítástámogató programok nem karakterben, nem sorban, hanem általában forrásszóban számolnak. Azt viszont, hogy mi számít egy szónak, különbözőképpen kezelik. Van, amelyik viszonylag hasonlít a Microsoft Word szószámlálásához, van, amelyik például aszerint különbözteti meg a számokat, hogy azok külön szegmenst alkotnak vagy szegmensen belül vannak – és csak akkor veszi figyelembe a számot, ha szegmensen belül található. Van olyan szoftver, ami a kötőjellel írott szót két szónak számlálja, van, amelyik egynek. Az sem egyezik teljesen – a fordítómemória-algoritmusok különbözősége miatt –, hogy mi mennyire számít hasonlónak. Ezek az eltérések befolyásolhatják az árajánlatadást egy fordítási munkára, de általában nincsenek nagy különbségek, hiszen a különbségek marginálisak.

Termelékenységnövelés[szerkesztés]

A fordítástámogató rendszerek termelékenységnövelő hatása jelentősen függ a szöveg típusától. A megtakarítás erősen ismétlődő szövegek (például felhasználói útmutatók, műszaki leírások stb.) esetében akár 50-60% is lehet, közepesen ismétlődő szövegek, üzleti tervek, jelentések esetében ez átlagosan 15-30%, de az is előfordulhat például levelek esetében, hogy a fordítástámogató rendszer semmilyen megtakarítást nem jelent.

A fordítók megbízóik felé gyakran az ún. hasonlósági mutatók figyelembevételével számláznak. Olyan esetekben, amikor a fordítómemóriában már szerepel a lefordított mondat, a fordító az adott mondatra jutó díjnak csak kis töredékét, általában 30%-át számlázza ki megrendelője felé. Minél kisebb a hasonlóság, a díjnak annál nagyobb részét számlázzák ki a fordítók.

A rendszerek használatának megtanulása[szerkesztés]

Különböző rendszerek különböző bonyolultságúak. Egyes rendszerek kiemelik az alapfunkciókat, mások minden beállítást közvetlenül a fordító számára bocsátanak, ezzel sokszor megnehezítve munkájukat. Sok fordítómemóriánál a fájlkezelés bonyolultsága kellemetlenségeket okoz, fájlokat kell az egyes munkaszakaszokra létrehozni, tárolni, kezelni. Van olyan fordítómemória, amelynek alapfunkcióit 2 óra alatt meg lehet tanulni, teljes használatát pedig 1 nap alatt, és van olyan fordítómemória, amely használatának megtanulásához napokra van szükség.

Fordítástámogatás és gépi fordítás[szerkesztés]

Professzionális fordítások során egyre nagyobb arányban alkalmaznak gépi fordítást is. A gépi fordítás előzetes szótárépítés, kalibrálás nélkül nem ad jó minőségű eredményt, de a szöveg előkészítése és utószerkesztése révén jelentős időmegtakarítás érhető el a gépi fordítás alkalmazásával is. Angol-magyar nyelvpárban a MorphoLogic MorphoWord Pro rendszerében van ilyen funkció.

A fordítástámogatás peremterületei[szerkesztés]

A fordítástámogatáshoz szorosan kapcsolódó technológiák:

terminológiakivonatolás, amely egy szövegből statisztikai és nyelvi módszerek révén állapítja meg, hogy mi számít terminusnak, így egy sok száz oldalas szöveg előkészítése is megtörténhet egy napon belül,
minőségellenőrzés, amely a célszöveg és a forrásszöveg teljességét, a számok egyezését, a mértékegységek következetességét, a terminusok helyes használatát, a szövegek hosszát stb. vizsgálja,
munkafolyamat-kezelés, amely nem kifejezetten a fordítással kapcsolatos, hanem a fordítás folyamatával, a dokumentumkezeléssel,
szövegelőállítás (authoring), amely fordítómemóriák felhasználásával a forrásszöveg alkotásánál segédkezik olcsóbban, gyorsabban fordítható dokumentumok előállításában,
szoftverlokalizáció, amely fordítás ugyan, de nem a dokumentumok fordítása, hanem a felhasználói felületeké.

Hálózati fordítási környezetek[szerkesztés]

A hálózati fordítási környezetek egy vagy több szerveren tárolják fordítómemóriáikat, terminológiai adatbázisaikat. A szerveralkalmazások telepíthetők dedikált szerverekre vagy hagyományos munkaállomásokra is. Asztali környezetekkel működnek együtt, és csoportos fordítások esetén akár 30-60%-kal növelhetik a találati arányt az egyfelhasználós környezetekhez képest.

Külső hivatkozások[szerkesztés]

Ingyenes fordítómemóriák[szerkesztés]

Transolution, GPL-alkalmazás Python nyelven
Open Language Tools, XLIFF-fájlok fordítására szolgáló alkalmazás a Sun-tól

Informatikai portál • összefoglaló, színes tartalomajánló lap