Sumarización: un conjunto de herramientas para trabajar en la Web

La sumarización automática puede definirse como la tecnología que permite obtener, de forma automática, partes de información clave a partir de una o más fuentes de información, con lo cual constituye en una herramienta de especial relevancia para tomar decisiones en un tiempo mínimo.

El enorme aumento de la información online existente en la actualidad, generado fundamentalmente por la extensión de Internet y en concreto de la World Wide Web, con unas claras perspectivas de crecimiento continuado, hace que la sumarización tome un elevado valor estratégico hasta el punto de constituir la clave, en un futuro no muy lejano, para poder utilizar eficazmente la información que circula por la Web. En efecto, este enorme crecimiento de la información está planteando una serie de cuestiones relativas a cómo digerir eficazmente esa información, es decir, cómo lograr que ese enorme aumento de información constituya realmente una ventaja y no un alud insostenible (800 millones de páginas web estáticas que contienen en torno a 6 trillones de bytes en texto).
El fenómeno de la Web unido a la reducción de costes de almacenamiento ha hecho posible almacenar y diseminar la información a grandes velocidades. El almacenamiento de la información accesible por Internet va desde colecciones de imágenes y fotografías hasta enormes sites FTP y bibliotecas digitales con imágenes geográficas y vídeo. Los grandes museos y bibliotecas digitalizan sus contenidos para colocarlos en la Web.
En este contexto de cómo sacar utilidad a cantidades de información explosivas es donde aparecen los sistemas de extracción de información conocidos en la literatura internacional como information retrieval systems y que, debido a la relevancia que están tomando, están pasando a constituir una tecnología con entidad propia: la tecnología IR (Information Retrieval).
Estos sistemas, han presentado tradicionalmente un interés más bien marginal en el ámbito comercial, encontrando su foco de desarrollo en el sector académico. No obstante, en los últimos años la situación ha empezado a cambiar al producirse un fuerte interés en la industria que observa estos sistemas como un medio para sacar el máximo partido a la Web en el sentido de poder manipular la inmensa base de conocimiento en los diferentes formatos/medios que constituye la Web. El tema de la variedad de formatos/medios en que aparece la información constituye un aspecto de especial importancia en las tecnologías IR (Information Retrieval). En el artículo sobre motores de búsqueda publicado en iWorld en el número 31 (Septiembre del 2000), avanzábamos que el concepto de motor de búsqueda está desplazándose hacia el más amplio de portal, y es en los portales donde se van a proporcionar mecanismos para dirigir al usuario hacia la información concreta que necesita y ahí, la sumarización aparece como una potente herramienta para guiar al usuario en su búsqueda. El interés de la industria en la tecnología IR ha generado que la investigación científica y el desarrollo tecnológico se disparen: el número de artículos de investigación (conocidos normalmente como papers) publicados ha aumentado de forma drástica en los últimos años.
Los temas clave en tecnología IR, en términos de expectativas de mercado y potencial tecnológico, son, básicamente, los sistemas de archivo de imágenes en la Web, las técnicas de búsqueda de datos comprimidos, los motores de búsqueda con capacidad para operar con imágenes y las herramientas de sumarización automática de datos. El tema de las imágenes es especialmente crítico pues, uno de los problemas más inmediatos que aparece en los motores de búsqueda, es cómo indizar y categorizar los contenidos que aparecen en formato visual o audioclip. Las herramientas existentes para buscar información gráfica son escasas en los motores de búsqueda actuales e incluso inexistentes en gran parte de los mismos. Sin embargo, la necesidad y consecuentemente el mercado potencial existen claramente (el sector del diseño gráfico, el editorial, del mundo del arte, bibliotecas) y constituyen los sectores que, de manera inmediata, aparecen como demandantes de mecanismos de búsqueda (extracción de la información) capaces de trabajar con gráficos. Si a todo esto añadimos que aproximadamente el 70% de la Web corresponde a imágenes se observa que, más tarde o más temprano, la necesidad de estas herramientas de búsqueda alcanzará a prácticamente todos los sectores y usuarios.
La compresión, en particular la que se fundamenta en la codificación de Huffman basada en palabra, constituye otro de los enfoques para trabajar en tecnología de extracción de la información o tecnología IR. La compresión textual consiste en representar el texto en menor espacio que el texto original lo cual conlleva a reemplazar los símbolos de texto por otros equivalentes pero que utilicen menos bits. Con la compresión se consiguen mejoras en costes, aumento en la velocidad de transmisión de información, disminución del espacio necesario para el almacenamiento y reducción del tiempo necesario para realizar búsquedas. Además, se ha conseguido demostrar que buscar directamente en textos comprimidos es más rápido que buscar en el texto original sin comprimir y que buscar con palabras flexibles aumenta la compresión.

La sumarización
La sumarización, o lo que es lo mismo, la t

Whitepaper emc-cio-it-as-a-service-wp Whitepapers