A Unicode-karakterek elhelyezkedése
|
Ez a szócikk vagy szakasz lektorálásra, tartalmi javításokra szorul. (2006 decemberéből) |
Unicode |
---|
UCS |
A Unicode 1 114 112 (= 220 + 216 vagy 17 × 216, hexadecimálisan 110000) kódérték számára biztosít helyet.
A Unicode 5.0.0 esetében a kódértékek közül 101 063 (9,1%) karakterekhez van hozzárendelve, 137 468 (12,3%) fenntartott saját használatra, a maradék 875 441 (78,6%) szabad. A karakterekhez rendelt kódértékek közül:
- 98 884 a graféma
- 140 a formázó karakter
- 65 a vezérlő karakter és
- 2 048 az úgynevezett pótló karakter.
Az első 256 kód megegyezik az ISO 8859-1 kiosztásával – a egyik legismertebb karakter kódolási szabvány a nyugati nyelvekre. Végeredményben az első 128 karakter megegyezik az ASCII karaktereivel.
A Unicode karakterek számára fenntartott kód terület 17 lapra (plane) van felosztva, minden egyes lap 65 536 (= 216) kódpontot tartalmaz, azonban jelenleg csak néhány lap használt:
- 0. lap (0000–FFFF): Alap többnyelvű lap - Basic Multilingual Plane (BMP)
- 1. lap (10000–1FFFF): Kiegészítő többnyelvű lap – Supplementary Multilingual Plane (SMP)
- 2. lap (20000–2FFFF): Kiegészítő lap a szókép lapokhoz – Supplementary Ideographic Plane (SIP)
- 3. laptól a 13. lapig (30000–DFFFF) nem használt
- 14. lap (E0000–EFFFF): Kiegészítő lap a speciális felhasználású laphoz – Supplementary Special-purpose Plane (SSP)
- 15. lap (F0000–FFFFF) saját használatú terület céljára fenntartva – Private Use Area (PUA)
- 16. lap (100000–10FFFF) saját használatú terület céljára fenntartva – Private Use Area (PUA)
A 220 feletti kódpontok (nem értve ide a 16. lapot) azért vannak, hogy biztosítsák a kompatibilitást az UTF-16 kódolással, amely címei ebbe a tartományba esnek (lásd később). Jelenleg a Unicode kódterület mintegy 10%-a van kihasználva. A jövőben a különféle karaktertartományokat feltöltik az ismert írásokkal (lásd: [1]), és lehetséges, hogy szüksége lesz a Unicode-nak egy másik lapra a szóképek kezelésére, de van tíz nem használt lap még arra a célra, ha előre nem látott, eddig ismeretlen írások bukkannának fel. Jelenleg úgy látszik, hogy a 21 bites korlátot a Unicode a közeljövőben nem fogja meghaladni.
Alap többnyelvű lap
Az első lap (Nulladik lap), az Alap többnyelvű lap - Basic Multilingual Plane, (BMP) - az, amelyen a legtöbb karakterkód található. A BMP főként a modern nyelvek karaktereit tartalmazza, valamint nagy számú speciális karaktert is. A BMP-ben legtöbb "helyet" a kínai, japán és koreai (CJK) karakterek foglalják el.
A jobb oldali képen az Alap többnyelvű lap (BMP) kiosztásának vizuális képe látható. A használt színek jelentései:
- fekete = Latin írás és szimbólumok
- világos kék = Nyelvészeti karakterek
- kék = Egyéb európai írások
- narancssárga = Közép-Kelet és délnyugat-ázsiai írások
- világos narancs = Afrikai írások
- zöld = Dél ázsiai írások
- bíbor = délkelet-ázsiai írások
- piros = Kelet ázsiai írások
- világos piros = Egyszerűsített CJK Han
- sárga = Aboriginal írások
- lila = Szimbólumok
- sötét szürke = Diakritikus jelek
- világos szürke = UTF-16 pótlók és saját használatra fenntartott
- cián = Vegyes karakterek
- fehér = Nem használt
2005-ben a BMP a következő írásokat és/vagy nyelveket kezeli (a megadott számok hexadecimális értékek):
- latin alap (0000–007F)
- latin-1 kiegészítés (0080–00FF)
- latin A-bővítéssel (0100–017F)
- latin B-bővítéssel (0180–024F)
- IPA bővítések (0250–02AF)
- fonetikus jelek (02B0–02FF)
- kombinált diakritikus jelek (0300–036F)
- görög és kopt (0370–03FF)
- cirill (0400–04FF)
- cirill kiegészítés (0500–052F)
- örmény (0530–058F)
- héber (0590–05FF)
- arab (0600–06FF)
- szír (0700–074F)
- arab kiegészítés (0750–077F)
- thaana (0780–07BF)
- n’ko (07C0–07FF)
- szamaritán (0800–083F)
- mandai (0840–085F)
- Indiai írások:
- dévanágari (0900–097F)
- bengáli (0980–09FF)
- gurmukhi (0A00–0A7F)
- gudzsarati (0A80–0AFF)
- orija (0B00–0B7F)
- tamil (0B80–0BFF)
- telugu (0C00–0C7F)
- kannada (0C80–0CFF)
- malajálam (0D00–0D7F)
- szingaléz (0D80–0DFF)
- thai (0E00–0E7F)
- lao (0E80–0EFF)
- tibeti (0F00–0FFF)
- burmai (1000–109F)
- grúz (10A0–10FF)
- hangul jamo (1100–11FF)
- etióp (1200–137F)
- etióp kiegészítés (1380–139F)
- cseroki (13A0–13FF)
- egyszerűsített kanadai bennszülött jelek (1400–167F)
- ogham (1680–169F)
- rúnaírás (16A0–16FF)
- Fülöp-szigeti írások:
- khmer (1780–17FF)
- mongol (1800–18AF)
- limbu (1900–194F)
- tai le (1950–197F)
- új tai lü (1980–19DF)
- khmer szimbólumok (19E0–19FF)
- buginéz (1A00–1A1F)
- lanna (1A20–1AAF)
- szundanéz (1B80–1BBF)
- fonetikus kiegészítések (1D00–1D7F)
- fonetikus bővítések kiegészítései (1D80–1DBF)
- kombinált diakritikus jelek kiegészítései (1DC0–1DFF)
- latin bővítések kiegészítései (1E00–1EFF)
- bővített görög(1F00–1FFF)
- szimbólumok:
- általános elválasztó jelek (2000–206F)
- alsó- és felsőindexek (2070–209F)
- pénzjelek (20A0–20CF)
- kombinált diakritikus jelek szimbólumokhoz (20D0–20FF)
- betűszerű szimbólumok (2100–214F)
- szám formátumok (2150–218F)
- nyilak (2190–21FF)
- matematikai műveleti jelek (2200–22FF)
- vegyes technikai jelek (2300–23FF)
- Irányító képek – Control Pictures (2400–243F)
- OCR karakterek (2440–245F)
- Enclosed Alphanumerics (2460–24FF)
- rajz dobozok (2500–257F)
- blokk szimbólumok(2580–259F)
- geometrikus alakzatok (25A0–25FF)
- vegyes szimbólumok (2600–26FF)
- Dingbats (2700–27BF)
- vegyes matematikai szimbólumok-A (27C0–27EF)
- nyilak-A kiegészítés (27F0–27FF)
- Braille jelek (2800–28FF)
- nyilak-B kiegészítés (2900–297F)
- vegyes matematikai szimbólumok-B (2980–29FF)
- kiegészítő matematikai műveleti jelek (2A00–2AFF)
- vegyes szimbólumok és nyilak (2B00–2BFF)
- glagolita (2C00–2C5F)
- Latin C-bővítéssel (2C60–2C7F)
- kopt (2C80–2CFF)
- grúz kiegészítések(2D00–2D2F)
- tifinagh (2D30–2D7F)
- bővített etióp (2D80–2DDF)
- elválasztó jelek kiegészítés (2E00–2E7F)
- CJK gyökök kiegészítése (2E80–2EFF)
- kangxi gyökök (2F00–2FDF)
- ideografikus leíró karakterek(2FF0–2FFF)
- CJK szimbólumok és elválasztók (3000–303F)
- hiragana (3040–309F)
- katakana (30A0–30FF)
- kínai nyelv (3100–312F)
- hangul Compatibility Jamo (3130–318F)
- kanbun (3190–319F)
- bopomofo bővítés (31A0–31BF)
- CJK ecsetvonások (31C0–31EF)
- katakana fonetikus bővítések (31F0–31FF)
- Enclosed CJK Letters and Months (3200–32FF)
- CJK kompatibilis (3300–33FF)
- CJK egyszerűsített szókép bővítés A (3400–4DBF)
- Yijing hexagram szimbólumok (4DC0–4DFF)
- CJK egyszerűsített szóképek (4E00–9FFF)
- ji jelek (A000–A48F)
- ji gyökök (A490–A4CF)
- hang módosító betűk (A700–A71F)
- Latin D-bővítéssel (A720–A7FF)
- Syloti Nagri (A800–A82F)
- Hangul jelek (AC00–D7AF)
- magas pótlók (D800–DB7F)
- magas sajátnál használt pótlók (DB80–DBFF)
- alacsony pótlók (DC00–DFFF)
- saját célra fenntartott (E000–F8FF)
- CJK komtibilis szóképek (F900–FAFF)
- alfabetikus megjelenítési formák (FB00–FB4F)
- arab prezentációs formák-A (FB50–FDFF)
- kijelölés változatok(FE00–FE0F)
- függőleges formák (FE10–FE1F)
- kombinált fél jelzők (FE20–FE2F)
- CJK kompatibilis formák (FE30–FE4F)
- kisebb forma változatok (FE50–FE6F)
- arab prezentációs formák-B (FE70–FEFF)
- félszélességű és teljes szélességű formák (FF00–FFEF)
- speciális jelek (FFF0–FFFF)
A következő felülvizsgálatok során várhatóan számos írás fog bekerülni az Unicode rendszerbe. Néhány írás és azok javasolt elhelyezkedési tartományai a következők:
- bali (1B00–1B7F)
- lepcha (rong) (1C00–1C4F)
- santali (Ol Cemet' / Ol Chiki) (2DE0–2DFF)
- vai (A500–A61F)
- phags-pa (A840–A87F)
- saurashtra (AB00–AB5F)
Néhány egyéb írás, amit a BMP-be felvételre javasoltak:
- avestan és pahlavi (0800–085F)
- cham (18B0–18FF)
- batak (1A20–1A5F)
- lanna (ős tai lü) (1A80–1AEF)
- meithei/manipuri (1C80–1CDF)
- varang kshiti (AA00–AA3F)
- sorang sompeng (AA40–AA6F)
Kiegészítő többnyelvű lap
Az 1. lap, a Kiegészítő többnyelvű lap' – Supplementary Multilingual Plane - (SMP) használatos számos, történelmi írás (mint például a lineáris B írás) kódolására, de ez használható a zenei és matematikai szimbólumok kezelésére is.
A 2005-ös Unicode 4.1 szerint, az 1. lap a következő írásokat tartalmazza:
- lineáris B írás jelei (10000–1007F)
- lineáris B-írás ideogramjai (10080–100FF)
- égei számok (10100–1013F)
- ősi görög számok (10140–1018F)
- ősi olasz (10300–1032F)
- gót (10330–1034F)
- ugariti (10380–1039F)
- ős perzsa (103A0–103DF)
- deseret (10400–1044F)
- shavian (10450–1047F)
- osmanya (10480–104AF)
- ciprusi jelek (10800–1083F)
- kharoshthi (10A00–10A5F)
- bizánci zenei jelek (1D000–1D0FF)
- zenei jelek (1D100–1D1FF)
- ősi görög zenei jelek és kotta jelölések (1D200–1D24F)
- Taj Hszüan Csing ( ) szimbólumok (1D300–1D35F)
- alfanumerikus matematikai szimbólumok (1D400–1D7FF)
A 2006-os, Unicode 5.0 változat a következő írásokkal egészült ki:
Néhány egyéb írást is javasoltak még az 1. lapra, többek között:
- ősi permi
- meroitic
- manichai
- balti
- arameus
- dél-arab
- brámi
- szojombo
- indus írás
- Tengwar
- cirth
- Bliss szimbólumok
- alap egyiptomi hieroglifák
- számoló pálcák
Saját használatú terület
A saját használatú terület – Private Use Area (PUA) egy a több olyan tartományból, amelyek saját használat céljára vannak fenntartva. Ezekhez a területekhez a Unicode semmilyen karaktereket nem rendel hozzá.
Az alap többnyelvű lap esetében ez a terület az U+E000 és az U+F8FF (57344–63743) közötti tartomány. A Tizenötödik lap (U+F0000 és U+FFFFF között), valamint a Tizenhatodik lap (U+100000 és U+10FFFF között) teljesen saját használat céljára fenntartott.
A saját használatú terület – PUA koncepciója bizonyos ázsiai nyelvek kódolási rendszereiből öröklődött. Ezek a rendszerek rendelkeztek saját célra használható területekkel, mivel a japánban a gaidzsi (ritka, a személy-nevekben előforduló karakterek) alkalmazás specifikus kezelését ilyen módon oldották meg. Hasonló a ConScript Unicode Registry megoldása, amely segíti a még nem kezelt, vagy a Unicode által visszautasított írásoknak az Unicode PUA területén való elhelyezést. A Unicode középkori iniciálé betűtípus szintén a PUA területet használja a középkori szövegekben előforduló különféle ligatúrák, előre összeállított karakterek, és szimbólumok kódolására.
A saját használatú terület kihasználásának egy jó példája az Apple Computer által használt U+F8FF terület az Apple által használt betűtípusok és a logó tárolására és megjelenítésére.
Egyéb lapok
A 2. lap, a tartalmazza a Kiegészítő szókép lap – Supplementary Idiograme Plane (SIP) területet, ami annak a hozzávetőleg 40 000 ritka kínai karakternek a kezelésére használható , amelyek legtöbbje ugyan történeti, azonban mai írásokban is előfordulnak. A 14. lap (E hexadecimálisan), a Kiegészítő lap a speciális felhasználású laphoz – Supplementary Special-purpose Plane (SSP), aktuálisan néhány támogatásra nem javasolt nyelv karaktereit, illetve különböző szempontok alapján kiválasztott karaktereket tartalmazza.
Külső hivatkozások
- Részletes kódtáblázat az irodalmi kínai karakterek nélkül, 5.2.0 verzió (PDF fájl, angol)
- Kiegészítő kínai (CJK) kódtáblázat (PDF fájl, angol, nagy méretű)
- Kínai (CJK) gyök szerinti teljes index (PDF fájl, angol)
- The Unicode Standard (a hivatalos honlap, angol nyelven)