IETF nyelvi attribútum

Az IETF nyelvi attribútum vagy nyelvi tag (angolul IETF language tag) rövidített nyelvi kódok, amelyeket a modern számítástechnikában széles körben felhasználnak egy adott nyelv azonosítására. Az attribútum lehet pl. "en" az angol nyelv vagy "hu" a magyar nyelv esetében, "pt-BR" a Brazíliában beszélt portugál nyelv vagy "nan-Hant-TW" a Tajvanon beszélt kínai azonosítására.

A nyelvi attribútumokat az IETF a BCP 47 dokumentumban határozza meg,^[1] amely az RFC 5646, RFC 5645 és RFC 4646 dokumentumokra és az IANA Language Subtag Registry-jére épül.^[2]^[3]^[4]

A nyelvi tagekek számos modern számítástechnikai szabvány felhasználja, többek között az IETF által kiadott HTTP^[5] szabvány (RFC 2616), a W3 Consortium által kiadott szabványok, mint a HTML,^[6] az XML^[7] és PNG,^[8] illetve megtalálhatók az SGML vagy Unicode által kiadott szabványokban, vagy éppen nemzeti szabványokban is.

Története[szerkesztés]

A nyelvi attribútumokat első ízben az 1995 márciusában kiadott RFC 1766 szabvány határozta meg. A tagek az ISO 639 szabványban meghatározott kétbetűs nyelvi kódok és az ISO 3166 szabványban meghatározott kétbetűs országkódok felhasználásával épültek fel és 3-8 karakteresek lehettek.

2001 januárjában ezt a dokumentumok felváltotta az RFC 3066, amely átvette az ISO 639-2 szabványban meghatározott hárombetűs kódokat, megengedte az altageket, és átvette a HTTP/1.1-ben bevezetett nyelvi tartományokat az ehhez tartozó tagekkel.

A szabvány következő felülvizsgálatára 2006-ban került sor az RFC 4646 (fő dokumentum) és RFC 4647 (melléklet) kiadásával. Az RFC 4646 strukturáltabb nyelvi tageket vezetett be, átvette az ISO 15924 szabványban meghatározott négybetűs írásrendszerkódokat, és az UN M.49 szabványban bevezetett hárombetűs régiós kódokat. Az új altageket külön táblázatban rögzítették. Az RFC 3066-tal való kompatibilitás érdekében megtartották az előző szabványban meghatározott kódokat is.

A szabvány jelenleg érvényes változata az RFC 5646, amelyet 2009 szeptemberében adtak ki. A szabvány frissítésének fő célja az volt, hogy átvegyék az ISO 639-3 és az ISO 639-5 szabványokban bevezetett hárombetűs kódokat.^[9]

Szintaxisa[szerkesztés]

A nyelvi tagek altagekből (subtag) állnak, amelyeket kötőjelek választanak el. Az altagekben csak sztenderd latin karakterek vagy számok használhatók.

A privát nyelvi tagek és a korábban meghatározott tagek kivételével az nyelvi attribútum a következőképpen épül fel:

az elsődleges nyelvi altag (primary language subtag vagy az ISO 639-1 (2002)-nek megfelelő kétbetűs kód, vagy az ISO 639-2 (1998), ISO 639-3 (2007) és ISO 639-5 (2008) szabványoknak megfelelő hárombetűs kód;
legfeljebb három, opcionális, kiterjesztett nyelvi altag (extended language subtags), mindegyik három karakterrel. Ezeket kötőjel választja el egymástól.
opcionális írásrendszer altag (script subtag), amely egy négybetűs kód az ISO 15924 szabványból (általában nagy kezdőbetűvel megadva);
opcionális régió altag (region subtag), amely lehet kétbetűs országkód az ISO 3166-1 alpha-2 szabványból (általában nagybetűvel írva), vagy egy hárombetűs, földrajzi régiót jelölő kód az UN M.49 szabványból
opcionális variációs altagek (variant subtags), mindegyik 5 - 8 karakter lehet
opcionális kiterjesztő altagek (extension subtags), amelyek egy karakterből (az "x" kivételével) és további altagekből állhatnak. A jelenlegi szabvány egyetlen ilyen altaget sem határoz meg, ezeket a jövőbeni szabványosítás céljából hozták létre.
opcionális magánhasználati altag (private use subtag), amely az "x" betűből és további altagekből áll, amelyeket kötőjelek választanak el.

Az altagek nem veszik figyelembe a kis- és nagybetűket, de a szabványban használt írásmód követése javasolt: a régiót jelölő altagek nagybetűvel, az írásrendszert jelölő altagek nagy kezdőbetűvel, az összes többi tag kisbetűvel írandó. Ez az írásmód követi a felhasznált ISO szabványok írásmódját.

Használata[szerkesztés]

Az IETF által meghatározott nyelvi attribútumok segítségével lehet a számítástechnikában hivatkozni egy adott nyelvre, vagy egy nyelv egy országban vagy régióban beszélt változatára, vagy éppen egy adott nyelv meghatározott írásrendszerére. A nyelv megadása lehetővé teszi az adott nyelvnek megfelelő eljárások futtatását, pl. egy adott dokumentum megjelenítését. Erre egy példa a szerb nyelv, amely egyaránt használja a cirill ábécét és a latin ábécét, ezeket a sr-Cyrl és a sr-Latn nyelvi attribútumokkal lehet megkülönböztetni, hogy adott esetben egy böngésző tudja, milyen betűkészletet kell használni egy internetes oldal megjelenítéséhez.

További példák:

zh-cmn-Hans-CN – kínai mandarin nyelv, egyszerűsített kínai írásmóddal
zh-yue-HK – a Hongkong területén használt kantoni nyelv jelölése
de-CH-1901 – a Svájcban használt német nyelv az 1901-es írásmóddal
en-US – amerikai angol
es-419 – a Latin-Amerikában és a karibi térségben beszélt spanyol nyelv

Jegyzetek[szerkesztés]

↑ Best Current Practice 47: Tags for Identifying Languages. (Hozzáférés: 2012. január 3.)
↑ http://www.iana.org/assignments/language-subtag-registry
↑ http://www.iana.org/assignments/language-tag-extensions-registry
↑ http://www.iana.org/protocols/
↑ RFC 2616: Hypertext Transfer Protocol – HTTP/1.1, section 3.10
↑ HTML 4.01 Specification, section 8.1
↑ Extensible Markup Language (XML) 1.0 (Fifth Edition), section 2.12
↑ Portable Network Graphics (PNG) Specification (Second Edition), section 11.3.4.5
↑ Language Tag Registry Update charter. [2007. február 10-i dátummal az eredetiből archiválva]. (Hozzáférés: 2007. április 23.)

Fordítás[szerkesztés]

Ez a szócikk részben vagy egészben az IETF language tag című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Külső hivatkozások[szerkesztés]

BCP 47 Language Tags – a nyelvi attribútumok jelenlegi szabványa (az RFC 5646 és RFC 4647 szabványok egy dokumentumban)
Language Subtag Registry – az IANA által regisztrált nyelvi tagek
Language tags in HTML and XML – a W3C konzorcium által meghatározott nyelvi tagek
http://www.langtag.net/ Archiválva 2017. október 19-i dátummal a Wayback Machine-ben
IANA Language Subtag Registry Search^{[halott link]} – nem támogatott eszköz az IANA regisztrációs adatbázisában való kereséshez

Informatikai portál • összefoglaló, színes tartalomajánló lap

[1] Best Current Practice 47: Tags for Identifying Languages. (Hozzáférés: 2012. január 3.)

[2] ttp://www.iana.org/assignments/language-subtag-registry

[3] ttp://www.iana.org/assignments/language-tag-extensions-registry

[4] ttp://www.iana.org/protocols/

[5] RFC 2616: Hypertext Transfer Protocol – HTTP/1.1, section 3.10

[6] HTML 4.01 Specification, section 8.1

[7] Extensible Markup Language (XML) 1.0 (Fifth Edition), section 2.12

[8] Portable Network Graphics (PNG) Specification (Second Edition), section 11.3.4.5

[9] Language Tag Registry Update charter. [2007. február 10-i dátummal az eredetiből archiválva]. (Hozzáférés: 2007. április 23.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]