Számítógéppel támogatott fordítás

A Wikipédiából, a szabad enciklopédiából

A számítógéppel támogatott fordítás (angolul: computer-assisted translation, CAT) szövegek ember által végzett, de számítógéppel támogatott fordítása egyik nyelvről a másikra.

Számítógéppel támogatott fordítás kontra gépi fordítás[szerkesztés]

A CAT-programok nem maguk fordítanak, hanem az emberi fordítót támogatják a munkájában. A gépi fordítás ezzel szemben automatikusan, ember beavatkozása nélkül jön létre.

A technikákat olykor keverik; egyes fordítóirodák mérsékelt árakon gép által előállított, majd emberi fordító által ellenőrzött (korrigált) fordítást is kínálnak.

Előnyei[szerkesztés]

  • ügyfél- vagy ágazatspecifikus terminológia használata
  • (a gépi fordítással szemben:) jobb megfelelőség
  • kollaboratív munka megkönnyítése
  • rövid átfutási idő
  • olcsóság
  • jobb költségkontroll

Kompenensek[szerkesztés]

A CAT-rendszerek általában a következő részekből állnak:

  • Fordítómemória (Translation-Memory-System)
  • Terminológiai adatbázis
  • Konverterek szövegszerkesztő- és Desktop Publishing-programokhoz
  • Alignment-eszközök, amelyekkel már létező fordítások (összetartozó forrás- és célnyelvi szövegek) is betáplálhatók a mondattárba.
  • Projektmanagement- és munkafolyamat-komponensek

Fordítómemória vagy fordítói mondattár[szerkesztés]

A fordítómemória vagy fordítói mondattár (ang. translation memory, röv. TM) egy adatbázis strukturált mondatokkal és azok fordításaival.

Adatbázis-struktúra[szerkesztés]

Az adatbázisok alapvetően kétféleképpen épülhetnek fel:

  1. Léteznek olyan adatbázisok, amelyekben a mentett szegmensek összetartozó szövegek [kiindulási- (forrás-) és célnyelvi szövegek]. Előnyük, hogy nem elszigetelt mondatokat mentenek, hanem minden mondatot a szövegkörnyezetével együtt. Az adatbázis-lekérdezés témákra szűkíthető, így a fordító gyorsabban kiválaszthatja a megfelelő találatot.
  2. Másrészt vannak adatbázisok, amelyekben a szegmensek több mondatból vagy egész bekezdésekből állnak, amelyeket elszigetelten, tehát a forrásszöveg szövegkörnyezete nélkül mentenek el.

Gyakorlati munka[szerkesztés]

A gyakorlatban a fordítói mondattárral való munka azzal kezdődik, hogy importálnak egy (szövegszerkesztő programból származó) forrás-szöveget. Az alkalmazás olyan megfogalmazásokat keres az adatbázisban, amelyek egy állítható azonossági értéknél találóbbak, és fordításként felkínálja azokat. Ezeket a szerkesztő személy elfogadhatja, elutasíthatja vagy módosítva beemelheti a készülő fordításába. Ha nincs megfelelő szegmens, a szerkesztő új fordítást is begépelhet, amelyet az ilyen alkalmazások automatikusan elmentenek a meglévő szegmensek közé. Ettől fogva az alkalmazás a hasonló szegmensek előfordulásakor ez utóbbi megoldást is fel fogja kínálni. Ha a szegmenseket további adatokkal látják el, az később segít a több megfejtés közötti választásban. Ilyenek például:

  • az elmentett fordítás szerzője (létrehozott / módosított szegmens)
  • keletkezés/módosítás dátuma
  • a megfogalmazás gyakorisága
  • a megfogalmazás szövegkörnyezete
  • további osztályozó adatok

Ezeket az alkalmazás vagy automatikusan rendeli a szegmenshez, vagy a fordító személy adja meg manuálisan.

Annak felismeréséhez, hogy a keresett szöveg mennyire hasonlít egy már mentett kiindulási szegmenshez, az alkalmazás a szöveg betűsorozatain kívül az írásjeleket, szóközöket, sortöréseket és akár a formázásokat is értékelheti.

Műszaki jellemzők[szerkesztés]

Általában a TM-rendszerek rendelkeznek olyan funkciókkal, amelyek a tárolt forrásmondatokat számoktól, dátumoktól, mértékegységektől vagy tulajdonnevektől függetlenül is képesek felismerni.

A hasonló forrásszegmensek felkutatása különböző keresőalgoritmusok segítségével történik, amelyek a hasonlóságot legtöbbször százalékban becsülik meg.

A szövegszerkesztő- és DTP-alkalmazásokból származó szövegeket a TM-rendszerek számára szűrő- és kicsomagoló alkalmazások állítják rendelkezésre, amelyek kiolvassák az adott file (pl. DOCX vagy INDD) hasznos tartalmát. Ennek eredményeképpen egy tagelt (kijelölésekkel ellátott) file-t kapunk, amelyben a fordítandó tartalom speciális kijelölések (tagek) között van. Ezeket a layout-tageket a rendszer védi, illetve elrejti, nehogy véletlenül felülírják vagy megváltoztassák. Szoftverek fordításánál (lokalizálásnál) a programkód ezáltal megvédhető az akaratlan változtatástól. A kijelölések abban segítik a fordítás után működésbe lépő szűrőprogramot, hogy a szövegeket ismét a megfelelő helyre tegyék a kimeneti file-ba, és alkalmazzák a formázásokat (félkövér, dőlt stb.) a kész szöveg megfelelő helyein. A legtöbb TM-rendszer rendelkezik olyan szerkesztővel, amely megkönnyíti a munkát az ilyen tagelt file-okkal.

A különböző TM-rendszerek közötti adatcserénél a fordítói memóriákat a TMX-formátumon keresztül (Translation Memory eXchange) és a projekteket az XML Localization Interchange File Format (XLIFF) lehet transzferálni. Ezek nyílt formátumok, a legtöbb professzionális fejlesztőcég támogatja őket. Mivel a rendszer tartalma erősen függ a mindenkori szegmentálás módjától és a TMX-formátum definíciója tág teret hagy az értelmezésnek, az adatátvitel általában veszteségekkel jár.

Terminológiai adatbázis[szerkesztés]

A terminológiai adatbázis egy speciális terminológiák kezelésére szolgáló adatbázis. A felhasználási célok az egyszerű szótáraktól és glosszáriumoktól kezdve a strukturált tezauruszokig terjedhetnek.

A terminológiai adatbázisok segítik mind a szerkesztőségi, mind a fordítói munkát. Segítenek az egyértelmű, konzisztens és ellenőrzött szak- és vállalati terminológia használatában és a „tiltott” terminológia kerülésében (pl. idegen gyártók termékmegjelölései). Fordítás során felkínálják a felhasználónak a kifejezések célnyelvi megfelelőit. Több rendszer a desktop-változaton kívül webes komponenssel is rendelkezik a terminológiák intra- vagy internetes eléréséhez.

Az adatok nyelvészeti információkon túl (mint a szófaj, nem, szám) szakmai (mint a szakterület) és metainformációkat is tartalmaznak (pl. forrás), valamint példákat a szövegkörnyezetre. Fontos, hogy az adatok jól strukturáltak és automatikusan feldolgozhatók legyenek.

Import/export formátumok[szerkesztés]

Gyártófüggetlen transzferformátumként keletkezett az SGML-alapú MARTIF (Machine-Readable Terminology Interchange Format) ld. ISO 12200:1999-10. Az XML-alapon keletkezett TermBase eXchange (TBX) formátumot az ISO 30042:2008-12 szabvány írja le. Emellett a legtöbb terminológiai adatbázis további adatformátumot is támogat, ilyenek pl. a CSV vagy a Microsoft Excel, hogy a felhasználók létező terminológialistákat emelhessenek át az adatbázisba, vagy hogy adatbázisbeli terminológiát exportálhassanak.

Alkalmazás[szerkesztés]

A következő, közel sem kimerítő felsorolás tartalmazza a legfontosabb, a piacon elérhető alkalmazásokat.

Alkalmazás Támogatott formátumok Operációs rendszer Licenc
Across MS Office-file-ok, DXF, RTF, TXT, TeX, HTML, XML, SGML, Adobe FrameMaker, InDesign és InCopy, BroadVision QuickSilver, QuarkXPress, EXE, DLL, Resource Script-file-ok, Microsoft.NET, MSI, INI, OCX, SCR, CPL, NLS, PO, MC, Java Properties, forrásfile-ok Android-, iPhone- és BlackBerry-Appekhez Windows szabadalmazott
MemoQ MS Office-file-ok, XLIFF, ttx, sdlxliff, Text, XML, HTML, OpenOffice, Java (*.properties), Windows NET (*.resx), Adobe Indesign, Adobe Framemaker, AuthorIT, Typo 3, Visio, PDF, TMX-file-ok feldolgozása. STAR Transit- és SDL-Trados-Projektek feldolgozása Windows, hivatalos támogatás a Parallels által szabadalmazott
SDL Trados MS Office-file-ok, OpenOffice, InDesign, QuarkXPress, PageMaker, Interleaf, Framemaker, HTML, SGML, XML, XLIFF, TMX, TBX, SVG Windows szabadalmazott
Wordfast Classic / Pro MS Office-file-ok (Windowsra és Macre); címkézett dokumentumok Classic: MS Office Word-Addin

Pro-verzió: platform-független (Java)

szabadalmazott

További információk[szerkesztés]