Szerkesztővita:Javító

Az oldal más nyelven nem érhető el.
Új téma nyitása
A Wikipédiából, a szabad enciklopédiából
Legutóbb hozzászólt Javító 14 évvel ezelőtt a(z) UTF-8 témában

Hajrá[szerkesztés]

A szerkesztői lapodon írt tevékenységre igen nagy szükség van, úgyhogy hajrá! Bináris ide  Kampány a számok helyes írásáért 2010. január 8., 18:57 (CET)Válasz

UTF-8[szerkesztés]

Szia! Mire alapozod, hogy az UTF-8 lehet 6 bájtos? Az rfc3629 kifejezetten 1-4 bájtot ír (pontosabban az UTF-16 által leírható U+0000..U+10FFFF tartományt, ami még az UTF-8-cal 4 bájton kódolható tartománynak is alig több, mint a fele). Amit a hátrányról írtál, azt pedig egyáltalán nem értem. Milyen tömörítési eljárás? – TgrvitaIRCWPPR 2010. január 8., 20:20 (CET)Válasz


Tudomásom szerint, az Unicode kódolás karakterenként 4 byte-on jelöli a "karakternek" az értékes jegyeit. Az UTF-8 kódolás lehagyja a nullákat a karakterek elejéről, és így spórol helyet a kisebb számoknál, azonban a byte-ok elején valahol jelölni kell a hovatartozásukat, ezért hogyha egy olyan karaktert ütsz be, amelynél az Unicode már egy olyan 4 bytes számot feltet meg, ami 1-el kezdődik, akkor az utf-8 "hovatartozási" jelivel együtt összesen már 6 byte-ot is elfoglal.

00000000 00000000 00000000 0xxxxxxx <-> 0xxxxxxx
00000000 00000000 00000xxx xxxxxxxx <-> 110xxxxx 10xxxxxx
00000000 00000000 xxxxxxxx xxxxxxxx <-> 1110xxxx 10xxxxxx 10xxxxxx
00000000 000xxxxx xxxxxxxx xxxxxxxx <-> 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
000000xx xxxxxxxx xxxxxxxx xxxxxxxx <-> 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0xxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx <-> 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Forrás --Javító vita 2010. január 8., 20:38 (CET)Válasz

A Unicode önmagában nem kódolás, hanem egy betűket definiáló szabvány; amire te gondolsz, az az UTF-32. Elvben tényleg lehetne alkalmazni az UTF-8 logikáját hat bájtra (sőt, hétre is, és akkor leírhatná mind a 2^32 négy bájton elkódolható kódpontot), a gyakorlatban némi nyomozás után ez tűnik az autoritatív definíciónak (92. oldal végétől), és ez egyértelműen 4 bájtban definiálja a jólformált UTF-8 kódegységet. Ha jól értem, a régebbi ISO/IEC 10646 szabvány még hat bájtról beszélt, részben innen származik a keveredés. – TgrvitaIRCWPPR 2010. január 8., 23:37 (CET)Válasz

Az Unicode meghatározza hogy milyen betűnek hányas száma van. Ezt max 4 bytes számokig teszi. Erre gondoltam.
Szerintem, tekintve hogy az algoritmus 6byte-ig tökéletesen működik, és majd minden program értelmezi is, nem a szabvány a mérvadó, hanem a tényleges működés. A 7. byte azért nem nagyon működhet mert (még?) nincs olyan karakter ami oda kerülne, és azért egy kicsi kavarás bekerül, mert több mint 4 byte-ot ír le:
xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx <-> 11111110 100000xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
Bár biztosan előfordul ilyen is egy-egy elvetemült dokumentumban, szerintem a max 6 byte jellemzőbb. Jelölhetünk 7 byte-ot is, de ettől függetlenül a 4 a gyakorlatban gond nélkül átléphető, specifikáció ide vagy oda. --Javító vita 2010. január 9., 09:25 (CET)Válasz

Nos, az UTF-8 specifikáció szerint jelenleg valóban 4 byte-ig nőhet az UTF-8 mérete, de ha az Unicode táblába újabb karakterek kerülnek be, előfordulhat ennek átlépése, és ezeknek az értelmezését a legtöbb helyen javasolják is, egy esetleges későbbi módosításra való felkészülésként. Javaslom a leírásban maradjon 4 byte és a lapra valahova kerüljön be egy megjegyzés, az UTF-8 esetleges nagyobbra növekedésével kapcsolatban.--Javító vita 2010. január 9., 09:40 (CET)Válasz

Ezt az egészet át kéne tenni a Unicode szócikk vitalapjára. Túl sok értékes információ van itt, hoyg csak úgy elsüllyedjen egy szerkesztői vitalap archívumában. Bináris ide  Kampány a számok helyes írásáért 2010. január 9., 10:00 (CET)Válasz

Átmásolva ide: UTF-8 vitalap --Javító vita 2010. január 10., 15:49 (CET)Válasz

Celsius[szerkesztés]

Az U+2103 szemantikailag kétségkívül korrektebb, mint a külön fokjel + C, de a legtöbb standard fontban nincs benne, ezért nagyon csúnyán megtöri a betűképet. FF3.5/WinXP alatt pl. így néz ki a szakaszcím: Szerintem a karakterkódokról szóló szakaszon kívül jobb lenne kerülni. – TgrvitaIRCWPPR 2010. január 8., 20:36 (CET)Válasz
Elnézést... Nekem megjelent, és hol így, hol úgy volt alkalmazva.--Javító vita 2010. január 8., 20:38 (CET)Válasz