Szövegfájl

A Wikipédiából, a szabad enciklopédiából
Egy CSV-formázott szövegfájl stilizált, ikonként történő megjelenítése.

A szövegfájl vagy .txt (Text fájl) az informatikában legelterjedtebb, legalapvetőbb, formázást nem tartalmazó, szöveges dokumentumformátum. Sorokba rendezett szöveget tartalmaz, a sorok végét általában újsor (soremelés, illetve soremelés és kocsi vissza) vezérlőkarakterek jelzik. A szövegfájl végét gyakran fájlvégjel (End-of-file, EOF) jelöli.

A szövegfájl kifejezés konténerformátumra utal, a plain text („sima szöveges fájl”) a tartalomra utal. A szövegfájlok lehetnek sima szöveges fájlok, de ez nem szükségszerű.

Általánosan a számítógép fájljai két csoportra oszthatók: szövegfájlok és bináris fájlokra.[1] A szövegfájlok a bináris állományokkal ellentétben speciális programok nélkül is olvashatók, és szövegszerkesztőben megtekinthetők és szerkeszthetők, például a Notepaddal Windowson és vi-vel Linuxon. A fájlok felosztása azonban nem mindig egyértelmű.

A fájlban használható jeleket a kódolás határozza meg. A leggyakoribbak az ASCII és az UTF8, ami a Unicode-nak felel meg. A használt jeleket a szöveg emberi vagy formális nyelve (programozási vagy leírónyelv) is meghatározza. Ha a szövegfájl tartalmának feldolgozása nem igényel további feldolgozást, vagy egy speciális jelölésrendszer ismeretét, akkor a szöveget újra plain textnek nevezik. Ha a szövegfájl meghatározott notációt követel, mint például a HTML fájlok, szintén megtekinthetők és szerkeszthetők egyszerű szövegszerkesztőkkel, bár a legtöbb szövegszerkesztő ismer szintaktikai kiemelést vagy automatikus formázást.

A köznyelv szövegfájlnak nevez minden olyan fájlt, amelyek olvasható szöveget tárolnak. Az ismert szöveg- és kiadványszerkesztő programok a szöveg mellett még sok más információt, formázást, oldalméretet, szerkezeti tagolást, betűtípust, képeket és más metaadatokat tartalmaznak. Ezek összetett szerkezetűek, és a fenti értelemben nem szövegfájlok, hanem binárisak, és nem olvashatók speciális programok nélkül.

Adattárolás[szerkesztés | forrásszöveg szerkesztése]

Egyszerűségük miatt a szöveges fájlokat gyakran használják adattárolásra, vagy jegyzetek gyors készítésére. Elkerülhető velük néhány más fájlformátumokkal megjelenő probléma, mint a bájtsorrend, a kitöltő bájtok, vagy a gépi szó hossza közötti eltérések. Ráadásul a fájl sérülése esetén könnyű akár manuálisan kijavítani a hibát és folytatni a fájl feldolgozását. A szövegfájlok hátránya alacsony entrópiájuk – más megközelítésben viszont veszteségmentes tömörítéssel könnyen csökkenthető a méretük.

Az egyszerű szövegfájl értelmezéséhez nincs szükség metaadatokra, ezért az adatokat nem tartalmazó szöveges fájl akár nulla bájt hosszúságú is lehet.

Elkülönítés a bináris fájloktól[szerkesztés | forrásszöveg szerkesztése]

Sok operációs rendszeren a kiterjesztésre vonatkozó konvenciók határozzák meg a fájl típusát. Windows alatt a .txt kiterjesztésű fájlok szövegfájlok.

Az e-mailek formátumának szabványosításában definiált Multipurpose Internet Mail Extensions (MIME) típusok médiatípusokat adnak meg, amelyeket az e-mailforgalom mellett máshol is használnak a fájlok típusának meghatározására. A szöveges típust a text jelöli. A teljes típusmegadást egy altípus is kiegészíti, ami az alkalmazási területet jelzi. Az egyszerű szöveges fájlok, amelyek nem igényelnek további feldolgozást, a text/plain megjelölést kapják.

A szövegfájlok formázására szegényesek a lehetőségek; nem lehet például félkövérré, dőltté tenni szövegrészeket, vagy betűméretet és betűtípust választani. Egyes kódolások lehetővé teszik diakritikus jelek, ékezetes betűk bevitelét vagy az írásirány megváltoztatását.[2]

A dokumentumszerkesztők által előállított fájlok még akkor sem számítanak szövegfájlnak, ha nem tartalmaznak formázást, mert a szöveg csak előzetes feldolgozás után, a megfelelő programmal tekinthető meg. Végső soron azonban egyes típusaik mégis szövegfájlok egy magasabb szinten, mert XML fájl írja le őket. Hasonló igaz a Portable Document Format (PDF) fájlok szövegére, mivel binárisan kódolt információk kísérik. A beszkennelt szövegek képként vannak tárolva, hacsak nem használtak egy szövegfelismerő programot.

A szövegfájlok információsűrűsége alacsony, vagyis kicsi az entrópiája, azaz nagy a redundanciájuk. Ezt például Huffman-kóddal kihasználva a tömörítők nagyobb tömörítési arányt tudnak elérni, mint bináris fájlok esetén.[3]

Sorvég felismerése[szerkesztés | forrásszöveg szerkesztése]

A sorvég felismerésére alapvetően két lehetőség van. Az egyik, hogy a fájl sorai egyenlő hosszúak; a másik, hogy a sorvégeket külön jelek jelzik.

Állandó sorhossz[szerkesztés | forrásszöveg szerkesztése]

Az állandó sorhossznak az az előnye, hogy a pozíció anélkül állapítható meg, hogy ismét el kellene olvasni az előtte levő sorokat, vagy emlékezni kellene rájuk. Hátránya, hogy a rövid sorokat ki kell tölteni. A kitöltéshez többnyire szóközöket használnak. Emiatt, ha sok a rövid sor, akkor a fájl több helyet foglal el, mint nem fix sorhosszú formában. A rögzített sorhossz csak nagygépes környezetben használatos, ahol vagy a fájlrendszer rögzít egy egységes sorhosszat, vagy a fájl létrehozásakor kell megadni. Ez a sorhossz gyakran 80, ami megfelel a szöveges terminálok sorhosszának.[4]

Egyes programozási nyelvek, mint a Fortran és az Ada, leginkább az állandó sorhosszúságú fájlokra vannak felkészítve. A változó sorhosszú fájlok kezelése nehéz ezekben a nyelvekben.

Vezérlőjelek használata[szerkesztés | forrásszöveg szerkesztése]

A vezérlőjelek használata az írógépek korszakát idézi. Ott az új sor kezdetét két gomb, a kocsivissza (Carriage Return, CR) és a soremelés (Line Feed, LF) jelezte. Ezek voltak a legesélyesebb jelöltek a sorvége jel szerepére; azonban elég lenne csak az egyik ahhoz, hogy az új sor kezdete ismert legyen. A különböző operációs rendszerek más és más megoldást választottak, ami napjainkban is bonyodalmakat okozhat.[5]

  • A Windows és elődje a CR és az LF kombinációját használja
  • A Unix alapú rendszereken LF jelzi a sorvéget
  • Az Apple régebbi rendszerein egyedül a CR-t alkalmazták
  • Az IBM nagygépes rendszerein még egy jelet, az NL is használatos volt (lásd EBCDIC karakterkódolás).[6]

Ezek a problémák leginkább a Windows és a Unix rendszerek közötti adathordozást érintik, mivel ott a szövegfájlok sorvégjeleinek cseréjén kívül semmi más konverzióra nincs szükség.

További vezérlőjelek[szerkesztés | forrásszöveg szerkesztése]

A sorvégek mellett más vezérlőjelek is megjelenhetnek a szövegfájlokban. A legfontosabbak a lapdobás Form Feed (FF), és a vízszintes tabulátor Horizontal Tabulation (HT), ami lehetővé teszi a szöveg bizonyos mértékű formázását. Ezek különösen akkoriban voltak fontosak, amikor a szövegfájlok tartalma közvetlenül a terminálon vagy nyomtatásban jelent meg.

A szöveg további formázását escape szekvenciák is megadhatják. Ezek egy bevezető jelből, és az utána következő karakterláncból állnak. Különböző szabványokat fogadtak el, mégpedig terminálon a Digital Equipment Corporation (DEC) szabványait (ANSI X3.41-1974 és X3.64-1977),[7] amelyek a VT-modellekkel terjedtek el, és nyomtatásban az Epson ESC/P szabványát.

Karakterkódolás[szerkesztés | forrásszöveg szerkesztése]

A szövegfájlok fizikailag binárisan kódolt tartalma az adott fájlra megadott szabályok szerint alakul át látható szöveggé. A leggyakoribb karakterkódok:

  • Az ASCII a legelterjedtebb kódolás, különösen, ha bővítéseit is ideszámítjuk
  • Az ISO 8859-1 és az ISO 8859-15 az ASCII szabványos bővítései. A Windows Windows-1252 néven ismeri, és széles körben használja
  • Az EBCDIC az IBM nagygépein szokásos kódolás
  • A Unicode nemzetközi szabvány, amely igyekszik minden írásjelet magába foglalni. A fenti kódolásokkal ellentétben egy karakternek nem elég 8 bit, hiszen ennél sokkal többet használnak.
Német nyelvű szöveg nem megfelelő kódolással ábrázolva

A Unicode alkalmazásakor tehát egy jel nem fér el egy bájton. Különböző módszerek léteznek, amelyek a Unicode karaktert bájtokra kódolják. A leggyakoribb jelek esetén igyekeznek minimalizálni az elfoglalt helyet, ezért a csak ASCII karaktereket tartalmazó fájl ugyanakkora lesz UTF-8-ban, mint ASCII-ben.[8] Tehát a Unicode esetén az egyes karakterek nem egyenlő méretűek.

A Unicode-ban kódolt fájl elején egy speciális bájtsorozat jelzi, hogy melyik Unicode-ban íródott. Ez a Byte Order Marks, röviden BOM. Ez azért is fontos, mert egyes rendszereken az ASCII bővítéseit és a Unicode-ot párhuzamosan használják. Az így kódolt szövegfájlok már kezdenek a bináris fájlokra hasonlítani.

Ha a fájlt egy másik karakterkódolás szerint jelenítik meg, például EBCDIC kódolású fájl ASCII-ben, akkor a fájl szövege rejtjeleződik, ami a kulcs, tehát a két kódtábla ismerete nélkül olvashatatlan. Ha ellenben mindkét kódolás az ASCII-ből származik, akkor az ékezetes vagy mellékjeles szöveg nehezen, de olvasható marad, mivel az ASCII által tartalmazott betűk úgy jelennek meg, ahogy kell, és csak a többi, például a magyar ékezetes betűk vagy a német umlautok romlanak el.

Átvitel rendszerek között[szerkesztés | forrásszöveg szerkesztése]

Ha egy szövegfájlt átviszünk az egyik rendszerből egy másikba, gondoskodnunk kell arról, hogy az új helyen is olvasható maradjon, továbbá figyelembe kell venni a sorvégjelzést is. A csak ASCII karaktereket tartalmazó fájlok átvitele többnyire problémamentes, mert a legtöbb helyen ismerik az ASCII valamely bővítését. Az UTF-8 kódolás szerint is megmaradnak ezek a karakterek. Ha a fájl más karaktereket is tartalmaz, akkor konverzióra van szükség. Tulajdonképpen elég a fájl megnyitásakor és elmentésekor konvertálni. Ha az új helyen csak tárolják, akkor akár káros is lenne át- és visszakódolgatni.

Az e-mailek mellékletében küldött szövegfájlok is zavaróan és nehezen olvashatóan jelenhetnek meg. Ennek az az oka, hogy a küldő e-mail-kliense nem tudja kikövetkeztetni a kódolást, és a felhasználóbarátság miatt a felhasználótól sem kérheti annak megadását, így az e-mail nem tartalmazza ezt a fontos információt. Elvben ma már a legtöbb e-mail-kliens képes lenne a kódolás megválasztására. Azonban néha még maga az e-mail szövege is rosszul dekódolódik.

A fájlok közvetlen átmásolásakor többnyire speciális programok végzik el a másolást. Ezek az átkódolást, sorvégcserét is elvégzik, például Windows és IBM-nagygépek között. Másoláskor meg kell adni, hogy a másolandó fájl bináris vagy szöveges-e, mert az ilyen konverziók károsíthatják a bináris fájlokat.[9]

Formátumok[szerkesztés | forrásszöveg szerkesztése]

UTF-8[szerkesztés | forrásszöveg szerkesztése]

Angol kontextusban a szövegfájlok tartalmazhatnak kizárólag ASCII karaktereket, de nemzetközi kontextusban a szövegfájlok általában 8 bitesek, hogy a nemzetközi karaktereket is tárolni tudják.

Ilyen esetekben a fájl elején megjelenhet egy Byte Order Mark, hogy meg lehessen különböztetni az UTF-8 kódolású fájlokat a hagyományos regionális kódolásoktól.[10]

ASCII[szerkesztés | forrásszöveg szerkesztése]

Az ASCII szabvány megengedi a kizárólag ASCII karaktereket tartalmazó szövegfájlok szabad átvitelét Unix, Macintosh, Microsoft Windows, DOS és más rendszerek között – ez sok fájltípusról nem volt elmondható. A rendszerek közti különbségek az újsor-konvencióra (CR vagy CR+LF) és az ASCII-n kívüli karakterek (különféle karakterkódolások) értelmezésére terjednek ki.

MIME[szerkesztés | forrásszöveg szerkesztése]

A szövegfájlok MIME-typusa általában "text/plain", amit a kódolási információk egészítenek ki. A Mac OS X előtt a Mac OS rendszerek akkor tekintettek egy fájlt szövegfájlnak, ha a hozzá tartozó resource fork jelezte, hogy a fájltípus "TEXT". A Microsoft Windows alatt általában a .txt kiterjesztés jelöli, hogy szöveges fájlról van szó; de specifikus célokra más kiterjesztéseket is szokás használni a szövegfájlokra. Például számítógépes programok forráskódja esetén általában a kiterjesztés a programozási nyelvre utal, amin a kód íródott.

.TXT[szerkesztés | forrásszöveg szerkesztése]

A .txt fájlformátum olyan szövegek számára megalkotott fájlformátum, melyek nagyon kevés formázást tartalmaznak (nincs például félkövér vagy dőlt betű). A .txt formátum nincs precízen meghatározva, de általában megegyezik a rendszer szöveges terminálja vagy egyszerű szövegszerkesztője által elfogadott formátummal. A .txt kiterjesztésű fájlokat általában bármilyen szövegkezelő program képes kezelni, és univerzálisnak (és platformfüggetlennek) tekintik azokat.

Az angol nyelvű szöveges fájlok leggyakrabban ASCII karakterkészlettel íródnak, és sok esetben ezt tekintik alapértelmezett formátumnak. Ékezetes, vagy nem latin betűs nyelvek esetében valamilyen karakterkódolást kell használni. Sok rendszerben ezt az alapértelmezett területi beállítások határozzák meg. Gyakori például az európai nyelveknél az ISO 8859-1 vagy ISO 8859-2 használata. Mivel a hagyományos karakterkódolások igen szűkösnek bizonyultak, létrehozták a Unicode-ot, ami megkísérli magába foglalni az összes nyelv karaktereit. Bár a Unicode-hoz számos kódolási forma tartozik, leggyakoribb az UTF-8, melynek előnye, hogy felülről vagy visszamenőleg kompatibilis az ASCII-val; tehát minden ASCII fájl értelmezhető UTF-8 fájlként is (és a jelentésük meg fog egyezni).

A sima ASCII és az UTF-8 közötti különbség még, hogy az UTF-8-nál jelen lehet a bájtsorrendet jelző BOM. A Microsoft a .txt fájlok kódolásánál UTF-8-at használ.

.TEXT[szerkesztés | forrásszöveg szerkesztése]

A .text kiterjesztés a .txt alternatívája.

Szabványos Windows .txt fájlok[szerkesztés | forrásszöveg szerkesztése]

Az MS-DOS és a Windows közös fájlformátumában a sorok végét a CR és az LF karakterek jelzik, amelyek ASCII kódjai 13 és 10. Az utolsó sor vége általában nem tartalmazza ezeket a jeleket, és sok szövegszerkesztő, például a Notepad nem is teszi ki őket az utolsó sor után.

A legtöbb Windows szövegfájl ANSI, OEM vagy Unicode kódolású. A Windows által ANSI-nak nevezett kódolások többnyire az egy bájtos ISO-8859 kódolások, kivéve a kínai, japán és koreai helyi beállításokat, amelyek két bájtos kódot igényelnek. Hagyományosan az ANSI kódolások alapértelmezettek voltak Windows alatt, mielőtt áttértek volna a Unicode-ra. Ezzel szemben az OEM kódolást az IBM definiálta, mint az IBM PC text mód megjelenítését. Ezeket ismerjük MS-DOS kódlapokként is. Tipikusan tartalmazzák az MS-DOS rendszer alkalmazásaiban gyakori grafikus karaktereket. Az újabb Windows szövegfájlok bájtsorrendet jelző BOM-mal használhatják az UTF-16LE vagy az UTF-8 kódolásokat.

Szabványosítás[szerkesztés | forrásszöveg szerkesztése]

A POSIX definíciója azokat a fájlokat tekinti szövegfájloknak, amelyek nulla vagy több sorra vannak tördelve.[11]

A POSIX szerint a nyomtatható fájlok szövegfájlok, amelyek csak nyomtatható, szóköz vagy backspace karaktereket tartalmaznak a helyi szabályok szerint. A vezérlőkarakterek nem számítanak nyomtathatónak.[12]

Felhasználás[szerkesztés | forrásszöveg szerkesztése]

Az eredeti és legrégebbi felhasználási mód a szövegek tárolása, azonban egy meghatározott felépítés esetén összetettebb adatokat is ábrázolhat. Ezeket a fájlokat már nem közvetlen megtekintésre, hanem más programokkal dolgozzák fel, vagy a rendszer felügyel rájuk.

Sokszor ezek a szöveges fájlok már bináris állományként, gépi feldolgozást követően jelennek meg. Itt azért használnak szöveges fájlokat, mert a bináris fájlok szerkezete még kevésbé egységes. Ezzel szemben a szöveges tárolásnak is megvannak a hátrányai: viszonylag sok helyet foglal, és a feldolgozáshoz újra és újra binárissá kell konvertálni. Mivel azonban egyre fontosabb az adatok átvitele a rendszerek között például internet közvetítésével, ezért még ma is sok helyen tárolnak így adatokat.

A privilegizált felhasználók által hozzáférhető konfigurációs állományok is gyakran szöveges formájúak. Bináris adatok esetén egy speciális konfigurációs programra lenne szükség, így viszont karakteres felületen, szövegszerkesztőkkel is szerkeszthetők. Ez elterjedt szokás a Unix és a Linux rendszereken; az XML terjedésével azonban egyre több helyen tárolnak így konfigurációs adatokat.

Táblázatos adatok[szerkesztés | forrásszöveg szerkesztése]

Különböző okokból tárolnak táblázatokat szöveges fájlokban. A tárolt adatok különböző táblázatkezelőkből (OpenOffice, LibreOffice, Microsoft Excel) is hozzáférhetők. Az adatbázisadatokat is gyakran exportálják így, hogy különféle más programokkal folytassák a feldolgozásukat. Erre az XML fájlok tűnnek a legalkalmasabbnak, de sokszor még a CSV formát választják.

Különböző eljárásokkal ábrázolják a táblázatos adatokat a szöveges állományokban:

  • Az oszlopok elválasztása tabulátorral. Egy soron belül egy speciális vezérlőjel különíti el az egyes adatokat.
  • CSV formátum, eredetileg Comma Separated Values. Tabulátor helyett vesszőt, pontosvesszőt, vagy más jelet is használhat.
  • Állandó szélességű oszlopok: az oszlopokat az állandó szélesség segít felismerni, amit azonban maga a fájl nem tartalmaz.

XML[szerkesztés | forrásszöveg szerkesztése]

Az XML egy metaadatformátum. Tehát azt definiálja, hogy hogyan nézzen ki egy fájl szerkezete.[13] Az XML egy szöveges formátum, amely ember és gép által egyaránt olvasható, és lehetővé teszi az XML állományok rendszerek közötti hordozását.[14]

Tehát az XML fájlok szövegfájlok, amelyek szerkezete szabványos, és főként adatcseréhez vagy adatok elmentéséhez használatosak; a pontos célt maga a fájl nem tartalmazza. Az XML-re alapuló fájlformátumra példa az SVG (Scalable Vector Graphics), egy képtípus, ami így szöveges formában kódolva is olvasható.

Az OpenOffice.org (OpenDocument) szövegfeldolgozásai és a Microsoft Word újabb verziói (Office Open XML, .docx kiterjesztés .doc helyett) szintén XML alapúak, tehát legalábbis elvben szövegfájlok. Itt azonban különbséget kell tenni a fájl szövege és a fájlban tárolt szöveg között, ahol is a fájl szövege nemcsak a fájlban tárolt szöveget tartalmazza, hanem a szöveg leírását is a metasíkon.[15]

További típusok[szerkesztés | forrásszöveg szerkesztése]

Az XML mellett még más régebbi leírónyelvek is léteznek. Ezek szintén leírják a tulajdonképpeni dokumentumot, és ugyanúgy szövegfájlban tárolják, mint az XML-ben íródott dokumentumokat.[16]

  • A HTML weblapokat ír le, és széles körben használják az interneten. Szerkezete az XML-re hasonlít.
  • A Rich Text Format (RTF) nyelv formázott dokumentumokat ír le, és szövegszerkesztők közötti adatcseréhez használatos.
  • A TeX és a LaTeX szintén formázott dokumentumokat ír le. Sokszor használják tudományos cikkek, szakdolgozatok készítésére, mert benne a képletek egyszerűen szerkeszthetők. A tulajdonképpeni dokumentum bináris fájl, ami a szövegfájl lefordításával jön létre.
  • A PostScript professzionális nyomtatási formázásokat tesz lehetővé, és szövegfájlként tárolódik. A bináris képeket hexadecimális jegyekben írja le. Mivel sok nyomtató közvetlenül értelmezi ezt a nyelvet, sok szöveg- és kiadványszerkesztő képes PostScript kimenet előállítására. Egyes helyeken azonban a PDF kiszorítja a PostScriptet.

Ezek mellett még létezik sok, köztük jogvédett formátum, amelyek felépítése csak egy megfelelő specifikációt tartalmazza.

Megtekintés és szerkesztés[szerkesztés | forrásszöveg szerkesztése]

Szövegszerkesztővel megnyitva ember által olvasható tartalom jelenik meg. Ez gyakran a plain text szövegének láthatóvá tételéből áll. Az alkalmazástól függően a vezérlőjelek vagy a szövegszerkesztő által elvégzett literális utasításokként vagy escape szekvenciákként jelennek meg, amelyek szövegként szerkeszthetők. Ezek az utasítások tovább renderelhetik a plain textet.

A legtöbb szövegszerkesztő lehetővé teszi bizonyos szövegrészek keresését a fájlban. Sokuk különböző formátumokat is támogat, és szintaktikus kiemelést nyújt egyes programozási és leírónyelvekhez. A legtöbb szövegszerkesztő nyomtatni is képes.

A fájlok megnyitásakor az a meglepetés érheti a felhasználót, hogy elromlottak a behúzások, és szétcsúsztak a formázások. Ennek legtöbbször az az oka, hogy beállítható, hogy mekkorát ugorjon a tabulátor. Ehhez járul, hogy többnyire nem jelzik, hogy az üres helyeket tabulátor vagy szóközök foglalják el.

Egyes szövegszerkesztők bizonyos beállítások esetén automatikusan megtörik a hosszú, az ablakból kinyúló sorokat. Nyomtatáskor ehhez hasonlóan alkalmazkodnak a papír szélességéhez. Ezeket a sortöréseket a fájl nem tartalmazza, és más médiumon máshova kerülhetnek. Gyakran nehéz megkülönböztetni ezeket a fájl szövege által tartalmazott sortörésektől.

Története[szerkesztés | forrásszöveg szerkesztése]

Az elektronikus adatfeldolgozás kezdetén egyszerűbb volt különbséget tenni a szöveges és a bináris fájlok között. Szövegfájl esetén egy jel mindig egy bizonyos bitminta szerint jelent meg. A fájl közvetlenül kinyomtatható, terminálon megjeleníthető, vagy táviratban elküldhető volt; mindezek nem igényeltek előzetes adatfeldolgozást.[17] A táviratok megjelenítésére szolgáló írógépek korából származnak a sorelőre és a kocsivissza vezérlőjelek.

A szöveg fizikai letárolásához a betűknek és a többi jelnek karakterkódot feleltettek meg. Régebben ehhez egy karakternek egy bájt felelt meg, vagyis 8 bit, ami 256 különböző jel kódját tudta megfeleltetni. Az ASCII eredetileg azonban mindössze 7 bitet használt egyetlen karakterhez. A karakterek legfelső bitje mindig nulla volt, ami heurisztikaként segítette megkülönböztetni a szövegfájlokat és a bináris állományokat.

A 7 és a 8 bites karakterekkel még kódlapok segítségével is csak egyféle írásmódot lehetett használni. A távol-keleti írásmódokat, mint kínai, japán vagy koreai, gyakorlatilag egyáltalán nem lehetett megjeleníteni. 1986-ban az ISO 2022 volt az első szabvány, amely lehetővé tette a többnyelvű fájlok használatát, és a 256 jelnél többet tartalmazó írások kódolását és megjelenítését is. Ez a szabvány leginkább a távol-keleten terjedt el, és az először 1991-ben kiadott Unicode hatására még innen is kezd visszaszorulni.[18][19]

A Unicode bevezetése bonyolultabbá tette a karakterkódolást, mivel egy karakternek nem mindig ugyanannyi bájt felel meg.

Mivel a fájlok rendszerek közötti átvitele az internet terjedésével egyre fontosabbá válik, és a szövegfájlok a bináris fájlokhoz képest egyszerűbben átvihetők különböző rendszereken keresztül, ezért a szövegfájlok egyre fontosabbá váltak. A szövegfájlok különféle alkalmazásai azonban elmosták a határt a szövegfájlok és a bináris állományok között.[20][21]

Jegyzetek[szerkesztés | forrásszöveg szerkesztése]

  1. Lewis, John. Computer Science Illuminated. Jones and Bartlett (2006). ISBN 0-7637-4149-3 
  2. RFC 4288: Media Type Specifications and Registration Procedures. Abschnitt 4.2.1
  3. Hans Werner Lang (FH Flensburg): Codierungstheorie – Huffmann-Code
  4. G. D. Brown: zOS/JCL. Job Control Language im Betriebssystem z/OS MVS. Seite 124ff, München 2004, ISBN 3-486-27397-3
  5. Kersken: IT-Handbuch für Fachinformatiker. 824f
  6. WebSphere Message Broker: Converting EBCDIC NL to ASCII CR LF
  7. Manual für VT100-Terminal (angol nyelven)
  8. Michael Schönitzer: Encodings
  9. RFC 959: File Transfer Protocol
  10. http://msdn.microsoft.com/en-us/library/windows/desktop/dd374101%28v=vs.85%29.aspx
  11. http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_395
  12. http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_282
  13. Sarah Coppin, Brent Hendricks: XML Basics
  14. Mario Jeckle: Extensible Markup Language (XML)
  15. Walter Ditch: XML-based Office Document Standards. JISC, Bristol 2007 (online; PDF; 1,5 MB)
  16. Kersken: IT-Handbuch für Fachinformatiker. 823
  17. Steve Moritsugu, Sanjiv Guha, David Pitts: Practical Unix. Seite 218, Que, 1999, ISBN 0-7897-2250-X (online)
  18. Peter Constable: Character set encoding basics. Understanding character set encodings and legacy encodings
  19. Richard Gillam. Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Seite 38ff, Boston 2003, ISBN 0-201-70052-2
  20. Kersken: IT-Handbuch für Fachinformatiker. 779
  21. Kersken: IT-Handbuch für Fachinformatiker. 848f

Források[szerkesztés | forrásszöveg szerkesztése]