Códigos ISO 639 de lenguas antiguas

septiembre 04, 2017

Códigos ISO 639 de lenguas antiguas

(Última actualización: 31/05/2018)

Si tienes un blog o una página web multilingüe, posiblemente sepas que en el HTML o XHTML en que se escribe, se deberían incluir las etiquetas ISO de lengua. Las etiquetas y metaetiquetas se utilizan no para el lector humano, sino para las máquinas. Así, un robot que indexa contenidos, o un sintetizador de voz, pueden saber que una página está doblemente en español e inglés, o que está en español con algunas frases en inglés, por ejemplo.

Indicadores de lengua en formato digital

Este es el caso que nos ocupa: nuestro blog está en español, pero contiene muchos elementos en otras lenguas, tanto antiguas como modernas. Aún se usan las metaetiquetas de lengua tras la apertura del <head> de la página, mas de acuerdo con las recomendaciones del W3C debe especificarse la lengua principal de una página con HTML. W3C es el acrónimo de World Wide Web Consortium, para la estandarización de lenguajes de programación web.

Etiquetas HTML de lengua

Que nuestro blog está en español lo indicamos así:

En XHTML, quedaría así:

...
</html>

Si escribimos algo en otra lengua, aunque sea una palabra, deberíamos indicarlo con una etiqueta en el html de la página. Personalmente, aunque se puede hacer de varias maneras, prefiero utilizar el marcador , como en el siguiente ejemplo:

La Duke Databank of Documentary Papyri sigue la Checklist of Editions iniciada por Oates.

El HTML quedaría así, teniendo en cuenta que ... encierra la cursiva de los títulos y ..., la lengua utilizada en ellos.

La Duke Databank of Documentary Papyri sigue la Checklist of Editions iniciada por Oates.

Es importante señalarlo por varias razones. Da algo más de trabajo, sí, pero cuando enmarcamos un texto en otro idioma, no solo los buscadores lo encuentran más fácilmente, sino que facilitamos el trabajo a los sintetizadores de voz para aquellas personas que se valen de ellos para leer. Queremos un mundo sin barreras, que el conocimiento sea accesible para todos.

Códigos ISO de lenguas: ISO 639

La Organización Internacional para la Normalización (International Organization for Standardization, ISO) tiene publicados una serie de códigos para las distintas lenguas, en cuatro volúmenes o entregas hasta la fecha (y a la venta en su página web): ISO 639.1 (2002), ISO 639.2 (1998), ISO 639.3 (2007) e ISO 639.4 (2010). Los códigos ISO 639.1 son fáciles de encontrar, por ejemplo, en wikipedia, pero los códigos de lenguas antiguas, que son los que más nos interesan, requieren un poco más de búsqueda. Como esa búsqueda ya la hemos hecho, la compartimos aquí con todos vosotros.

Códigos ISO 639 de lenguas antiguas

Esta lista de lenguas históricas no pretende ser exhaustiva, y encontramos que faltan lenguas por codificar, como los dialectos arameos que surgieron tras la fragmentación del arameo imperial. En algunas lenguas se codifican los distintos estadios históricos, en otras no. Así, el hebreo de la Mishná, de la Biblia y el que se habla hoy por las calles de Israel se codifican todos igual.

En la lista ISO 639.2 aparecen muchos códigos de dos caracteres (como es para español), que conservamos aquí, aunque la tendencia actual es la de unificar a tres caracteres, dado que así se siguen referenciando en 3WC: https://www.w3schools.com/tags/ref_language_codes.asp

Lengua	Language	Código
Acadio	Akkadian	akk
Antiguo alto alemán (ca. 750-1050)	German, Old High	goh
Antiguo eslavo eclesiástico	Old Slavonic	chu
Arameo imperial (700-300 a.C.)	Imperial Aramaic (700-300 BCE)	arc
Arameo samaritano	Samaritan Aramaic	sam
Copto	Coptic	cop
Egipcio (antiguo, no distingue escrituras)	Egyptian (ancient)	egy
Elamita	Elamite	elx
Etiópico	Geez	gez
Fenicio	Phoenician	phn
Francés antiguo (842-ca. 1400)	Old French (842-ca. 1400)	fro
Gótico	Gothic	got
Griego antiguo y bizantino (hasta 1453)	Ancient Greek (until 1453)	grc
Hebreo	Hebrew	he
Inglés antiguo (ca. 450-1100)	Old English (ca. 450-1100)	ang
Irlandés antiguo (hasta el 900)	Old Irish (to 900)	sga
Latín	Latin	la
Persa	Persian	fa
Persa antiguo (ca. 600-400 a.C.)	Old Persian (ca. 600-400 BCE)	peo
Provenzal antiguo	Occitan, Old	pro
Sánscrito	Sanskrit	sa
Siríaco clásico	Classical Syriac	syc
Sumerio	Sumerian	sux
Ugarítico	Ugaritic	uga

Y, finalmente, un par de códigos quizá interesantes para publicaciones on-line:

Sin contenido lingüístico	No linguistic content	zxx
Multilingüe	Multiple languages	mul

Para el avezado lector que quiera saber más, recomendamos la página correspondiente de la Biblioteca del Congreso de Estados Unidos, The Library of the Congress.

Créditos foto de portada:

Papiro arameo de Elefantina, contrato de préstamo.

Buscar este blog

De papiros y lenguas