IETF nyelvi attribútum

A Wikipédiából, a szabad enciklopédiából

Az IETF nyelvi attribútum vagy nyelvi tag (angolul IETF language tag) rövidített nyelvi kódok, amelyeket a modern számítástechnikában széles körben felhasználnak egy adott nyelv azonosítására. Az attribútum lehet pl. "en" az angol nyelv vagy "hu" a magyar nyelv esetében, "pt-BR" a Brazíliában beszélt portugál nyelv vagy "nan-Hant-TW" a Tajvanon beszélt kínai azonosítására.

A nyelvi attribútumokat az IETF a BCP 47 dokumentumban határozza meg[1], amely az RFC 5646, RFC 5645 és RFC 4646 dokumentumokra és az IANA Language Subtag Registry-jére épül[2][3][4].

A nyelvi tagekek számos modern számítástechnikai szabvány felhasználja, többek között az IETF által kiadott HTTP[5] szabvány (RFC 2616), a W3 Consortium által kiadott szabványok, mint a HTML[6], az XML[7] és PNG[8], illetve megtalálhatók az SGML vagy Unicode által kiadott szabványokban, vagy éppen nemzeti szabványokban is.

Története[szerkesztés | forrásszöveg szerkesztése]

A nyelvi attribútumokat első ízben az 1995 márciusában kiadott RFC 1766 szabvány határozta meg. A tagek az ISO 639 szabványban meghatározott kétbetűs nyelvi kódok és az ISO 3166 szabványban meghatározott kétbetűs országkódok felhasználásával épültek fel és 3-8 karakteresek lehettek.

2001 januárjában ezt a dokumentumok felváltotta az RFC 3066, amely átvette az ISO 639-2 szabványban meghatározott hárombetűs kódokat, megengedte az altageket, és átvette a HTTP/1.1-ben bevezetett nyelvi tartományokat az ehhez tartozó tagekkel.

A szabvány következő felülvizsgálatára 2006-ban került sor az RFC 4646 (fő dokumentum) és RFC 4647 (melléklet) kiadásával. Az RFC 4646 strukturáltabb nyelvi tageket vezetett be, átvette az ISO 15924 szabványban meghatározott négybetűs írásrendszerkódokat, és az UN M.49 szabványban bevezetett hárombetűs régiós kódokat. Az új altageket külön táblázatban rögzítették. Az RFC 3066-tal való kompatibilitás érdekében megtartották az előző szabványban meghatározott kódokat is.

A szabvány jelenleg érvényes változata az RFC 5646, amelyet 2009 szeptemberében adtak ki. A szabvány frissítésének fő célja az volt, hogy átvegyék az ISO 639-3 és az ISO 639-5 szabványokban bevezetett hárombetűs kódokat.[9]

Szintaxisa[szerkesztés | forrásszöveg szerkesztése]

A nyelvi tagek altagekből (subtag) állnak, amelyeket kötőjelek választanak el. Az altagekben csak sztenderd latin karakterek vagy számok használhatók.

A privát nyelvi tagek és a korábban meghatározott tagek kivételével az nyelvi attribútum a következőképpen épül fel:

  • az elsődleges nyelvi altag (primary language subtag vagy az ISO 639-1 (2002)-nek megfelelő kétbetűs kód, vagy az ISO 639-2 (1998), ISO 639-3 (2007) és ISO 639-5 (2008) szabványoknak megfelelő hárombetűs kód;
  • legfeljebb három, opcionális, kiterjesztett nyelvi altag (extended language subtags), mindegyik három karakterrel. Ezeket kötőjel választja el egymástól.
  • opcionális írásrendszer altag (script subtag), amely egy négybetűs kód az ISO 15924 szabványból (általában nagy kezdőbetűvel megadva);
  • opcionális régió altag (region subtag), amely lehet kétbetűs országkód az ISO 3166-1 alpha-2 szabványból (általában nagybetűvel írva), vagy egy hárombetűs, földrajzi régiót jelölő kód az UN M.49 szabványból
  • opcionális variációs altagek (variant subtags), mindegyik 5 - 8 karakter lehet
  • opcionális kiterjesztő altagek (extension subtags), amelyek egy karakterből (az "x" kivételével) és további altagekből állhatnak. A jelenlegi szabvány egyetlen ilyen altaget sem határoz meg, ezeket a jövőbeni szabványosítás céljából hozták létre.
  • opcionális magánhasználati altag (private use subtag), amely az "x" betűből és további altagekből áll, amelyeket kötőjelek választanak el.

Az altagek nem veszik figyelembe a kis- és nagybetűket, de a szabványban használt írásmód követése javasolt: a régiót jelölő altagek nagybetűvel, az írásrendszert jelölő altagek nagy kezdőbetűvel, az összes többi tag kisbetűvel írandó. Ez az írásmód követi a felhasznált ISO szabványok írásmódját.

Használata[szerkesztés | forrásszöveg szerkesztése]

Az IETF által meghatározott nyelvi attribútumok segítségével lehet a számítástechnikában hivatkozni egy adott nyelvre, vagy egy nyelv egy országban vagy régióban beszélt változatára, vagy éppen egy adott nyelv meghatározott írásrendszerére. A nyelv megadása lehetővé teszi az adott nyelvnek megfelelő eljárások futtatását, pl. egy adott dokumentum megjelenítését. Erre egy példa a szerb nyelv, amely egyaránt használja a cirill ábécét és a latin ábécét, ezeket a sr-Cyrl és a sr-Latn nyelvi attribútumokkal lehet megkülönböztetni, hogy adott esetben egy böngésző tudja, milyen betűkészletet kell használni egy internetes oldal megjelenítéséhez.

További példák:

Jegyzetek[szerkesztés | forrásszöveg szerkesztése]

Források[szerkesztés | forrásszöveg szerkesztése]

  • Ez a szócikk részben vagy egészben az IETF language tag című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel.

Külső hivatkozások[szerkesztés | forrásszöveg szerkesztése]