UTF-EBCDIC

A Wikipédiából, a szabad enciklopédiából

A UTF-EBCDIC egy karakterkódolás a Unicode karakterkészlet megjelenítésére. A neve alapján megállapítható, hogy EBCDIC-hez hasonló, azaz a mainframeken futó régebbi EBCDIC alapú alkalmazások különösebb nehézségek nélkül valószínűleg fel tudják dolgozni a karaktereket. A létező EBCDIC-alapú rendszerek szempontjából előnye, hogy kompatibilis a hagyományos EBCDIC-kóddal (hasonlóan az UTF8 és az ASCII kapcsolatához). Az UTF-EBCDIC részleteit a 16. "Unicode Technical Report" tartalmazza.

Egy Unicode kódpontok sorozatának UTF-EBCDIC kódolása egy UTF-8-szerű (a specifikáció UTF-8-Mod néven ismert) kódolással kezdődik. A különbség a két kódolás között az, hogy a módosítás előírja az U+0080 és az U+009F közötti kódpontok (a C1 vezérlő kódok) egy önálló byte-ban való megjelenítését. Emiatt az UTF-8-Mod 5 bitet használ a kódoláshoz a UTF-8 6 bitje helyett, ezért általában az UTF-8-Mod azonos bemenet esetében általában hosszabb kódokat szolgáltat, mint az UTF-8.

A fentiekben említett átalakítás az adatokat egy ASCII-szerű formátumban hagyja, ezért egy ISO8859x -> EBCDIC átkódolást kell végezni, hogy a kód megfeleljen a normál EBCDIC elrendezésnek. Ezen a ponton jelentkezik az a gond, hogy a EBCDIC-nek számos változata van, tehát ezt az átkódolást az éppen használatos változatnak megfelelően kell elvégezni

Általában ez a kódolási forma viszonylag ritka, még a különben EBCDIC alapú nagygépek között is, mint az IBM EBCDIC alapú operációs rendszerei, a z/OS például UTF-16-ot használ a teljes Unicode támogatáshoz. Például a DB2 UDB, a COBOL, a PL/I, a Java és az IBM XML toolkit is a UTF-16-ot támogatja az IBM nagygépeken.

További információk[szerkesztés]