El Centro Virtual Cervantes mejora su compromiso con la lengua española
A través del nuevo buscador panhispánico
El Instituto Cervantes, organismo público con sede en Madrid y en Alcalá de Henares constituido en 1991 para la promoción y la enseñanza de la lengua española y para la difusión de la cultura española e hispanoamericana, está presente en cuarenta países y en cuatro continentes. Con objeto de tener una cobertura universal y complementar la labor de los centros repartidos por el mundo, en 1997 se creó el Centro Virtual Cervantes (CVC), la referencia hispanista en el ciberespacio que ofrece contenidos y servicios a estudiantes, traductores, periodistas y otros profesionales que trabajan con la lengua, “así como para los hispanistas que se dedican a estudiar la cultura española en todo el mundo, y para cualquier persona interesada en nuestra lengua, en nuestra cultura y en la situación del español en la red”, explica Andrés Elhazaz, director del CVC.
En su compromiso activo con la difusión de la lengua española y como parte del área ‘el español en la red’ desarrollado en el Plan de Acción Info XXI, el CVC está desarrollando el denominado Buscador general Panhispánico, un buscador inteligente para generar una base de datos documental, diseñada y gestionada por el Instituto Cervantes, “que permitirá a los usuarios–apunta Elhazaz– realizar búsquedas sobre una selección de calidad de la información cultural publicada en Internet relacionada con la lengua española, para lo cual desarrollaremos herramientas que gestionen esa información mediante búsquedas inteligentes y automatizadas”.
Rastreo cultural
Para facilitar la ordenación y catalogación de esta información, el proyecto contempla el desarrollo de un robot capaz de rastrear en Internet y seleccionar los documentos más relevantes de la cultura española, así como un sistema para indexar automáticamente los resultados obtenidos y mantener actualizada la información, que se completará con otro que gestionará y clasificará los contenidos. “Actualmente tenemos el Oteador, que es una base de datos que tiene más de 6.000 direcciones web seleccionadas y clasificadas sobre el español y la cultura hispánica. Lo que pretendemos con este proyecto –asegura Elhazaz– es potenciar esto con un buscador más potente que mantenga lo que hemos conseguido hasta ahora, pero que sea más selectivo y automatice las búsquedas, para crear una gran base de datos documental transparente para el usuario final”.
El desarrollo de este aplicativo, patrocinado por Telefónica, ha contado con la aportación tecnológica de HP que, a través de su proyecto de filantropía, ha donado a esta institución un servidor de gama alta Integrity Rz2600, con capacidad para operar en Windows, Unix, Linux y VMS, equipado con dos procesadores Itanium2, 4 GB de memoria RAM, una tarjeta de red dual, dos discos de 146 GB en RAID 1 para garantizar la integridad del sistema y un disco de 146 GB Hot swap. A ello se suman los servicios de soporte de la plataforma y la garantía por tres años de alta disponibilidad de los sistemas.
En opinión de Jon Juaristi, director del Instituto Cervantes, “como catalizador universal de la lengua española y de la cultura hispánica, el Instituto Cervantes necesita el impulso que brinda la Red para llegar a un público que excede el objetivo de los medios tradicionales”. Una opinión que comparte Santiago Cortés, presidente de HP España, quien señala que “el portal del Instituto Cervantes es un reconocido punto de encuentro universal y un baluarte de la cultura española. La construcción del buscador panhispánico situará a este centro a la vanguardia tecnológica y permitirá que todos tengamos acceso al tesoro humanístico que sustenta la lengua española”.
Tecnología lingüística
La información que facilite este buscador será accesible por el usuario final, aunque se establecerá la definición de una jerarquía de perfiles para proteger la información privada. Además, la consulta de datos admitirá tres categorías de búsqueda: exacta, patronal y basada en redes semánticas, además de funcionalidades adicionales que proporcionará el sistema de gestión documental.
Para completar la labor de este buscador y como valor añadido, el sistema integrará herramientas con filtros semánticos y tecnología lingüística “que agilizarán las búsquedas, además de revisar la morfosintaxis de textos escritos en español y evaluar la calidad del lenguaje en los documentos localizados en Internet”, matiza el director del Centro Virtual Cervantes.
La información catalogada se actualizará constantemente, a través del robot o crawler, “y se revisará para evitar la presentación de contenidos obsoletos, si bien se creará un sistema de control de versiones para acceder a datos que en su día se publicaron en Internet y posteriormente se retiraron”. Para ello, el CVC cuenta con un equipo formado por más de una veintena de personas encargados de generar los contenidos, editarlos y realizar el soporte técnico.
Así, los principales módulos de este aplicativo son un metabuscador o localizador de enlaces que, “basado en los buscadores más potentes de la red –explica Elhazaz– se encargará de recopilar información, pero con una relevancia de acierto en la búsqueda y con un sumario basado en la consulta que da idea del contenido de la página accedida, que posteriormente se incorporará en un contenedor de información relacionado con el usuario y el tema de la catalogación”.
La herramienta de catalogación, que facilita las consultas mediante fichas catalográficas, agrupará la información en colecciones y categorías y, según el perfil del usuario, podrá copiarse, moverse, eliminarse o dada de alta en el sistema para que pueda ser accesible para el gran público a través del buscador. Otro módulo es el robot, mediante el cual se realiza el acceso a Internet para descargar y actualizar las páginas de enlace y, por último, el buscador dará respuesta a las consultas de los usuarios en el portal (cvc.Cervantes.es) “y permitirá al gran público recuperar la información previamente catalogada en el sistema”, señala este responsable.
Si bien actualmente, la sección Oteador del CVC ofrece la posibilidad de consultar 6.000 direcciones de Internet relacionadas con la lengua española que han sido seleccionadas por un grupo de expertos del Instituto Cervantes, las previsiones son “aumentar a 20.000 ó 30.000 estas direcciones en un par de años, ya que no existen muchas más que cumplan estos niveles de calidad y catalogación, manteniendo en caché las que ya no se utilizan. También continuaremos fomentando la colaboración con instituciones y asociaciones culturales aportando nuestras herramientas para que nos faciliten las direcciones que pueda