Unicode

A Wikipédiából, a szabad enciklopédiából

A Unicode (ejtsd: junikód) a különböző írásrendszerek egységes kódolását és használatát leíró nemzetközi szabvány. A Unicode nemcsak a kódolással, hanem a karakterek osztályozásával, megjelenítésével és használatával is részletesen foglalkozik.

Történet[szerkesztés | forrásszöveg szerkesztése]

A régi, legfeljebb csak néhány tucat előre rögzített betűt tartalmazó karakterkódolásokat a hardverfeltételek és az igények változásával fokozatosan felváltotta a Unicode, ami már nem szab korlátot a különböző jelek együttes használatának.

Kódtábla[szerkesztés | forrásszöveg szerkesztése]

A Unicode szabvány 16 biten tárolt síkokra osztja a szabvány legutóbbi változatában rögzített mintegy 100 ezer karaktert. Az első sík (BMP – Basic Multilingual Plane) mintegy 64 ezer karakterhelyén a legtöbb ma használatos jelet meg lehet találni.

Kódolás[szerkesztés | forrásszöveg szerkesztése]

A teljes, karakterenként 4 byte-ot foglaló UTF-32 kódolással szemben a tömörebb UTF-8 kódolás a legelterjedtebb. Az UTF-8 változó hosszúságú kódolással (1–6 byte) képezi le a Unicode karaktertáblát. 1 byte-on tárolt kódjai az ASCII-nak felelnek meg, így a latin betűs UTF-8 kódolású szövegek a régi ASCII környezetben is olvashatóak maradnak.

A Unicode használata[szerkesztés | forrásszöveg szerkesztése]

Operációs rendszerek[szerkesztés | forrásszöveg szerkesztése]

A mai Linux, Mac OS X és Windows operációs rendszerek alapértelmezett Unicode támogatással rendelkeznek. A belső feldolgozás Unicode-alapú, a tárolás is legtöbbször, a megjelenítés pedig az operációs rendszer és alkalmazásainak képességétől, például a betűkészlet lefedettségétől függ.

Beviteli módszerek[szerkesztés | forrásszöveg szerkesztése]

Mivel a billentyűkiosztásoknak nem lehet minden karakterhez egyszerű kombinációjuk, több operációs rendszer kínál alternatív beviteli lehetőségeket tetszőleges karakter elérésére.

Az ISO 14755 szabvány szabályozza a Unicode karakterek bevitelének módszereit. Az alap metódus szerint egy kezdőszekvencia után közvetlenül a hexadecimális kód megadása szükséges, majd ezt egy zárószekvencia követi. Ezenkívül specifikálták a képernyőről történő kiválasztást is, ahol a karakterek táblázatos formában szerepelnek a képernyőn, például egy karaktertábla programban.

Web[szerkesztés | forrásszöveg szerkesztése]

A Unicode támogatása már a HTML 4-ben megjelent az UTF-8 karakterkódolással. A ma használatos böngészőknek a magyar írásjelek (idézőjel, gondolatjel) megjelenítése sem okoz már gondot.

Lásd még[szerkesztés | forrásszöveg szerkesztése]

Külső hivatkozások[szerkesztés | forrásszöveg szerkesztése]

  • Unicode.ORG – A Unicode szabványosító testület és a különböző Unicode szabványok honlapja (angolul)
  • DecodeUnicode – Unicode wiki, mintegy 100 ezer betűképpel (németül) (angolul)
  • Unicode, UTF-8 (magyarul)