Códigos ISO 639 de lenguas antiguas


(Última actualización: 31/05/2018)


Si tienes un blog o una página web multilingüe, posiblemente sepas que en el HTML o XHTML en que se escribe, se deberían incluir las etiquetas ISO de lengua. Las etiquetas y metaetiquetas se utilizan no para el lector humano, sino para las máquinas. Así, un robot que indexa contenidos, o un sintetizador de voz, pueden saber que una página está doblemente en español e inglés, o que está en español con algunas frases en inglés, por ejemplo.

Indicadores de lengua en formato digital


Este es el caso que nos ocupa: nuestro blog está en español, pero contiene muchos elementos en otras lenguas, tanto antiguas como modernas. Aún se usan las metaetiquetas de lengua tras la apertura del <head> de la página, mas de acuerdo con las recomendaciones del W3C debe especificarse la lengua principal de una página con HTML. W3C es el acrónimo de World Wide Web Consortium, para la estandarización de lenguajes de programación web.

Etiquetas HTML de lengua


Que nuestro blog está en español lo indicamos así:

<html lang="es"> ... </html>

 En XHTML, quedaría así:

<html xmlns="http://www.w3.org/1999/xhtml" lang="es" xml:lang="en">
...
</html>

Si escribimos algo en otra lengua, aunque sea una palabra, deberíamos indicarlo con una etiqueta en el html de la página. Personalmente, aunque se puede hacer de varias maneras, prefiero utilizar el marcador <span>, como en el siguiente ejemplo:

La Duke Databank of Documentary Papyri sigue la Checklist of Editions iniciada por Oates.

El HTML quedaría así, teniendo en cuenta que <i>...</i> encierra la cursiva de los títulos y <span lang="código ISO de lengua">...</span>, la lengua utilizada en ellos.

La <i><span lang="en">Duke Databank of Documentary Papyri</span></i> sigue la <i><span lang="en">Checklist of Editions</span></i> iniciada por Oates.

Es importante señalarlo por varias razones. Da algo más de trabajo, sí, pero cuando enmarcamos un texto en otro idioma, no solo los buscadores lo encuentran más fácilmente, sino que facilitamos el trabajo a los sintetizadores de voz para aquellas personas que se valen de ellos para leer. Queremos un mundo sin barreras, que el conocimiento sea accesible para todos.

Códigos ISO de lenguas: ISO 639

La Organización Internacional para la Normalización (International Organization for Standardization, ISO) tiene publicados una serie de códigos para las distintas lenguas, en cuatro volúmenes o entregas hasta la fecha (y a la venta en su página web): ISO 639.1 (2002), ISO 639.2 (1998), ISO 639.3 (2007) e ISO 639.4 (2010). Los códigos ISO 639.1 son fáciles de encontrar, por ejemplo, en wikipedia, pero los códigos de lenguas antiguas, que son los que más nos interesan, requieren un poco más de búsqueda. Como esa búsqueda ya la hemos hecho, la compartimos aquí con todos vosotros.

Códigos ISO 639 de lenguas antiguas

Esta lista de lenguas históricas no pretende ser exhaustiva, y encontramos que faltan lenguas por codificar, como los dialectos arameos que surgieron tras la fragmentación del arameo imperial. En algunas lenguas se codifican los distintos estadios históricos, en otras no. Así, el hebreo de la Mishná, de la Biblia y el que se habla hoy por las calles de Israel se codifican todos igual.

En la lista ISO 639.2 aparecen muchos códigos de dos caracteres (como es para español), que conservamos aquí, aunque la tendencia actual es la de unificar a tres caracteres, dado que así se siguen referenciando en 3WC: https://www.w3schools.com/tags/ref_language_codes.asp

Lengua
Language
Código

Acadio
Akkadian
akk
Antiguo alto alemán (ca. 750-1050)
German, Old High
goh
Antiguo eslavo eclesiástico
Old Slavonic
chu
Arameo imperial (700-300 a.C.)
Imperial Aramaic (700-300 BCE)
arc
Arameo samaritano
Samaritan Aramaic
sam
Copto
Coptic
cop
Egipcio (antiguo, no distingue escrituras)
Egyptian (ancient)
egy
Elamita
Elamite
elx
Etiópico
Geez
gez
Fenicio
Phoenician
phn
Francés antiguo (842-ca. 1400)
Old French (842-ca. 1400)
fro
Gótico
Gothic
got
Griego antiguo y bizantino (hasta 1453)
Ancient Greek (until 1453)
grc
Hebreo
Hebrew
he
Inglés antiguo (ca. 450-1100)
Old English (ca. 450-1100)
ang
Irlandés antiguo (hasta el 900)
Old Irish (to 900)
sga
Latín
Latin
la
Persa
Persian
fa
Persa antiguo (ca. 600-400 a.C.)
Old Persian (ca. 600-400 BCE)
peo
Provenzal antiguo
Occitan, Old
pro
Sánscrito
Sanskrit
sa
Siríaco clásico
Classical Syriac
syc
Sumerio
Sumerian
sux
Ugarítico
Ugaritic
uga

Y, finalmente, un par de códigos quizá interesantes para publicaciones on-line:


Sin contenido lingüístico
No linguistic content
zxx
Multilingüe
Multiple languages
mul

Para el avezado lector que quiera saber más, recomendamos la página correspondiente de la Biblioteca del Congreso de Estados Unidos, The Library of the Congress.


Créditos foto de portada: Licencia de Creative Commons Public Dommain  Papiro arameo de Elefantina, contrato de préstamo.