Tecnologías: Libre Acceso al conocimiento (4/4)





Tanto el Acceso Abierto (Open Access, OA)  como la Open Archives Initiative (OAI, https://www.openarchives.org/) tienen como finalidad la interoperatividad o interoperabilidad entre archivos, la preservación de estos a largo plazo y el acceso universal a la información.

No obstante, Open Access y Open Archives Initiative son conceptos distintos: mientras que Open Access se refiere, como hemos visto, a la política de acceso abierto de las publicaciones científicas, la Open Archives Initiative proporciona la tecnología necesaria para hacer visibles y accesibles los documentos de acceso abierto.

Open Archives Initiative

Logo de la Open Archives Initiative. Es una especie de disquete antiguo estilizado sobre un rombo tumbado, a la manera de un ojo.
Logo Open Archives InitiativeCC BY-SA 4.0
Antes de la Open Archives Initiative https://www.openarchives.org/, los documentos estaban dispersos en revistas electrónicas especializadas, repositorios con este o aquel protocolo, lo que hacía difícil la recuperación de documentos. Así, por ejemplo, el repositorio Research Papers in Economics (RePEc) usaba al principio el protocolo Guildford, mientras que los repositorios de la Networked Computer Science Technical Reference Library (NCSTRLempleaban el protocolo Dienst.

Un protocolo de comunicaciones es un conjunto de reglas o normas de obligado cumplimiento por parte de todos los agentes, máquinas o programas que intervienen en una comunicación entre sistemas.  FTP (Protocolo de Transferencia de Ficheros) y HTTP (Protocolo de Transferencia de Hipertexto) son ejemplos de otros protocolos utilizados para la comunicación entre sistemas a través de Internet.

Nick Youngson CC BY-SA 3.0
Al principio, además, había diferentes interfaces para los distintos repositorios, por lo que los usuarios finales se veían obligados a aprender a usarlas para acceder a los diferentes repositorios y herramientas de búsqueda.

Era necesaria, pues, la unificación de todos los protocolos e interfaces.

En la Convención de Santa Fe (1999), se propuso la creación de un servicio universal para el autoarchivo por parte de los autores de documentos académicos (Universal Preprint Service, o UPS). El UPS sería «una capa básica y libre para la información académica, por encima de la que podrían prosperar tanto servicios gratuitos como servicios comerciales». Pretende, por tanto, ofrecer  tecnologías y marcos de interoperabilidad para la difusión de e-prints. Esto daría paso al OAI-MHP, que universaliza el acceso a la información.

OAI-MHP

El UPS pronto cambió de nombre y pasó a llamarse OAI-MHP, Open Archives Initiative-Metadata Harvesting Protocol (protocolo de recolección de metadatos).

Metadatos son datos sobre datos o, más exactamente, los datos que describen el contenido informativo de un objeto.

Aunque inicialmente se creó para ser aplicado a depósitos de documentos en acceso abierto, muy pronto se vio que podía implementarse sobre cualquier sistema que requiriese la comunicación de metadatos. Desde 2002 está operativa la versión 2.0, orientada a tal fin. La arquitectura del OAI-MHP v. 2.0 deja de ser pensada para el usuario humano y ahora se destina tanto al humano como a la máquina.

El Protocolo UPS y después el OAI-MHP contemplan dos funciones lógicas: Proveedores de Datos y Proveedores de Servicios.

Un Proveedor de Datos mantiene uno o varios repositorios que soportan OAI-PMH como medio de exponer sus metadatos.

Un Proveedor de Servicios envía peticiones OAI-PMH a los proveedores de datos y utiliza los metadatos como base para la creación de servicios de valor añadido. De esta forma un Proveedor de Servicios "recolecta" los metadatos expuestos por los Proveedores de Datos. Esos valores añadidos  pueden ser: sistema de búsqueda e identificación, filtrado, alertas temáticas, medición del uso e impacto de los documentos, etc.

OAI-PMH_basic, por Neil Fegen Copyright holder: Heriot-Watt University Adaptado de: http://www.oaforum.org/tutorial/english/page3.htm CC-BY SA 3.0

Es decir, aunque OAI-PMH no es un protocolo de búsqueda, su utilización puede servir de apoyo para los servicios de búsqueda. Es una capa básica sobre la que construir otros servicios.

El principal requisito para una interoperatividad básica es el formato Dublin Corehttp://dublincore.org/. Se basa en un conjunto de quince elementos, repetibles y no obligatorios (título, autor, materia, fecha, etc.), descriptibles por medio de propiedades, vocabularios controlados y esquemas de codificación, Carece de sintaxis propia, por lo que se puede codificar mediante XML. Quizá nos extendamos sobre esto en otra entrada.

Aunque el Dublin Core se establece como requisito, OAI-PMH se puede extender a cualquier formato de metadatos que puedan ser codificados en XML. Se basa en HTTP para las peticiones y en XML para las respuestas, está adaptado a la web y pensado para ella.

Otros proyectos OAI

Banco de peces, como metáfora de la agregación de elementos.
CC BY-NC ND Fotografía de Linda Castañe
Open Archives Initiative Object Reuse and Exchange (OAI-ORE) define estándares para la descripción e intercambio de agregaciones de recursos web.

Una agregación puede componerse, por ejemplo, por las diferentes versiones de un artículo o por los diferentes artículos de una revista, procedentes de distintos repositorios. OAI-ORE introduce el concepto de mapa de recursos (Resource Map o ReM), que permite establecer agregaciones de recursos y entender su estructura.

ResourceSync Framework Specification (ANSI/NISO Z39.99-2017). ResourceSync describe un marco de sincronización para la web que permite que los sistemas de terceros permanezcan sincronizados con los recursos en evolución de un servidor. La especificación reutiliza los formatos de documentos definidos por el protocolo Sitemap.

Software para repositorios

El software para la creación de repositorios es, como no podía ser menos, software libre y de código abierto, aunque bajo distintas licencias. Todos ellos cumplen con el Protocolo OAI-MHP. Además de los que aquí citamos, hay otros que pueden verse en la página de la OAI: https://www.openarchives.org/pmh/tools/
  • Eprints. Surgido directamente de la citada convención de Santa Fe, es el software más utilizado hasta la fecha. EPrints fue desarrollado en la Facultad de Electrónica e Informática de la Universidad de Southampton y publicado bajo licencia GPL en el año 2000. Actualmente va por la versión 3.4. Está escrito en el lenguaje de programación Perl. Repositorio: https://github.com/eprints/eprints
  • Invenio (antes CDSware, luego CDS Invenio, ahora solo Invenio). Ha sido desarrollado por el CERN (European Organization for Nuclear Research) y es el que utiliza este centro de investigación para su propio servidor de documentos. Está escrito en Python y publicado bajo licencia GPL. Está escrito en Python. Repositorio: https://github.com/inveniosoftware/invenio
  • DSpace. Desarrollado por el MIT, en colaboración con Hewlett Packard, está publicado esta vez bajo licencia BSD. La licencia BSD al contrario que la GPL permite el uso del código fuente en software propietario. Está escrito en Java.
  • Fedora Commons. Esta basado en Flexible Extensible Digital Object and Repository Architecture (Fedora). El sistema esta diseñado de forma que sobre el se construyan repositorios y otras bibliotecas digitales que cumplen con el protocolo OAI-PMH. Lo han desarrollado la Universidad de Virginia y la Universidad de Cornell. Está escrito en Java y publicado bajo licencia Apache 2.0

Para saber más...

  • Orduña-Malea, Enrique. “Reutilización e intercambio de objetos digitales compuestos en la Web: el proyecto OAI-ORE“. Anuario ThinkEPI, 2009, v. 3, pp. 45-48. http://eprints.rclis.org/16614/ Consultado el 19/05/2018.


Créditos foto de portada: Circuits, Dancing Lemur vía Flickr, CC-BY NC 2.0