Informatización de la A a la Z
Departamento de informática de la Real Academia de la Lengua
Nadie puede resistirse a las facilidades que la informatización del trabajo reporta, ni siquiera aquellos que todavía consideran que la tradición debe ser utilizada consecuentemente en los tiempos modernos . Es el caso de la Real Academia de la Lengua ( RAE ) , una institución que decidió hace un tiempo informatizar todos sus procesos y sus ingentes bancos de datos . Todo tipo de ilustraciones y de todos los tiempos, imágenes, entradas lexicográficas y sus correspondencias con otros diccionarios se han agrupado en diversos proyectos y actualmente se desarrollan bajo diversas soluciones informáticas, desde DB2 hasta Java, pasando por Internet . Octavio Pinillos, responsable de informática de la RAE, es la persona que más conoce este proceso .
Hasta el año 1993, los diccionarios de la Real Academia se editaban mediante sistemas manuales, apoyándose en sistemas de fotocomposición . A pesar de todo, en ningún momento se utilizaba la técnica . De hecho, se empleaban distintas fichas de papel para incluir las novedades que se derivaban de nuevas acepciones de las palabras que normalmente utilizamos . “Todo esto conllevaba demasiados problemas . Por tanto”, explica Pinillos, “decidimos informatizar la información, creando una base de datos precisamente a partir de los fichero de fotocomposición . Está basado en una base de datos relacional, que es en este caso la DB2 de IBM, pero podría haber sido cualquier otra . El desarrollo se ha decidido que se base en un sistema tipo cliente/servidor, atendiendo a unos criterios gráficos y a unos tipos de letra no convencionales . Por ejemplo, nosotros utilizamos caracteres griegos para explicar distintas etimologías, y se trataba de constituir un entorno de consulta que fuera coherente con estas necesidades” .
Para Pinillos, la principal virtud del Diccionario de la Real Academia Española ( DRAE ) es que “atiende actualmente a algo que normalmente era imposible conseguirlo manualmente, que es el criterio de integridad del enunciado de la palabra o entrada . Por ejemplo: si el DRAE cuenta con una entrada de los años 20 que tiene una referencia a una entrada de 1790, y alguien decide que la tercera acepción de esa palabra es incorrecta, la corrige o la suprime, al no poseer esa base de datos no podemos controlar que otros lemas referidos a esa entrada a lo largo del diccionario sean corregidos . El sistema de referencias cruzadas en el diccionario pierde coherencia con cada nueva edición, y es muy difícil controlarlo si no es con la base de datos” .
Por tanto, desde el Departamento de la Informática de la RAE se ha optado por incluir tablas para cada entrada: “Unas tablas de etimología, de lemas, de acepciones . . . Están relacionadas, y su nexo de unión es la entrada del diccionario . Con esto se pueden buscar palabras que tengan distintas características, por ejemplo, de etimología latina, que además sean verbos, etc . Eso se hace cómodamente a través de la base de datos, y se puede hacer no de forma secuencial, es decir, de la A a la Z, sino directamente a partir de cualquier búsqueda que se desee . Este tipo de revisiones es importante hacerlo así porque si no todo sería demasiado complicado” .
Proyecto Corpus
IBM entregó a la RAE, a principios de 1992, una serie de productos y distintos equipos de desarrollo que se completaron con otro proyecto, del que Pinillos habla prolijamente . “Decidimos también informatizar los antiguos ficheros de papel que poseíamos, y que se venían acumulando desde 1750 a través de papeletas . Estos ficheros incluían acepciones de las palabras, y corresponden a ejemplos léxicos . Parte de estos ficheros son correspondencias lexicográficas ( es decir, entradas de diccionarios, lo que dicen otros tomos de una palabra determinada ) . Esto tenía problemas de fiabilidad y de consulta, además de integración, perdiendo demasiado tiempo utilizando las papeletas y cotejándolas con otras acepciones . Por ello se informatizaron . Pero hubo un problema añadido: esto nos llevaba al menos 10 años de trabajo . En su lugar, decidimos diseñar el proyecto estrella en estos momentos, Corpus, basado en una aproximación distinta al problema al que hasta ahora habíamos pensado” . La opción escogida por la RAE fue inmediata: “En vez de informatizar todas estas papeletas optamos por hacer gran acopio de textos, a través de un corpus, sobre materias, y clasificados según ciertas reglas . Con ese banco de datos ahora mismo contamos con 180 millones de palabras . Es una base de datos real que nos proporciona ejemplos fiables de otras fuentes bibliográficas con las que el lexicógrafo puede cotejar y fundamentar la estructura de sus artículos y establecer los razonamientos que quiera” .
Tecnología del Archivo de Indias
Sin embargo, este sistema no es del todo completo, al menos, para las expectativas que la Real Academia pretende cumplir para con sus usuarios y su personal interno . Por ello, con este proyecto comentado se trazó otro paralelo en el que no sólo se trabajaba con las distintas entradas del diccionario sino que, a través de ellas, también se accedía a una imagen . Para la Real Academia, según explica Pinillos, “imagen significa visualizar una página completa del diccionario, es decir, ver la página en la que se incluye una entrada, sea del diccionario que sea . La razón de constituir este nuevo banco de imágenes, a través de una DB2, fue que conseguíamos asociar a cualquier información que necesitáramos alrededor de 33 . 000 páginas, desde el denominado Diccionario de Autoridades ( primera versión del actualmente manejado ) hasta la última revisión” . Para ello, la RAE aprovechó la tecnología utilizada en 1992 en el Archivo de Indias, uno de los pioneros en utilizar la tecnología para guardar de forma segura el acervo cultural de estos tomos recopilatorios . Los contenidos se irán incrementando a lo largo de estos meses: “En una primera ornada vamos a introducir todos los grandes diccionarios del español a lo largo de la historia hasta nuestros días ( o, al menos, hasta donde los problemas del copyright nos permitan ) . Ahora mismo tenemos dos versiones del sistema: una, la que se hizo con Archivos y Bibliotecas, que es una versión propietaria, puesto que se hizo en un sistema operativo que hoy en día está en flanco declive, que es el OS/2 de IBM, y es la que utilizamos internamente . Paralelamente, el Departamento de Informática de la RAE ha desarrollado una segunda versión para Internet” . Pinillos relata que existen determinados condicionantes a la hora de trabajar dentro de la Red: “Hemos tenido que degradar las imágenes en beneficio de la rapidez de acceso . Además, las imágenes originariamente estaban constituidas en un formato que hoy por hoy los navegadores no soportan de forma estable, que era un TIF grupo 4 . Por tanto, hemos tenido que transformarlas en formato GIF, puesto que al integrarlas en blanco y negro no tenía sentido en JPEG . Éste lo tenemos en dos versiones: la libre, de cara al público, que contiene todos los diccionarios; y después una versión que está pensada para los profesionales de la lengua, mucho más especializada . La curiosidad de la lengua es que su contenido aumenta prácticamente todos los días, y esto nos lleva a que la mejora de la base de datos y del acceso a los mismos sea también diaria” .
Migración
Es precisamente en esta mejora donde se sitúa la migración hacia otros sistemas que la informática reclama como los más útiles y completos hoy en día: “Es cierto que internamente utilizamos OS/2, que esta base de datos está desarrollada con herramientas nativas de OS/2, tipo Presentation Manager . Pero es evidente que necesitamos migrar, en este caso, hacia clientes Java . Por ahí prevemos que vamos a ir, y abandonaremos OS/2 a finales de este año . Pero hay que observar que