Cuando los datos se convierten en información de valor

Un análisis de Meta Group

25 ABR 1997

Análisis recientes entre grandes usuarios reflejan una clara tendencia hacia la implantación de proyectos data warehouse. La mayoría de las veces, los usuarios se abstienen de elegir los servidores y los sistemas de gestión de bases de datos (SGBD) más grandes y más rápidos, evitando también las metodologías como el almacenamiento de datos centralizado y los modelos de datos universales. Es más bien un método de análisis de sus actividades lo que dirige sus proyectos. Los resultados de ello son de naturaleza diferente: infraestructuras de transmisión y depuración de datos cada vez más completas, una reducción espectacular de los costes inútiles de almacenamiento de los datos (soportes, gestión y mantenimiento), un despliegue más rápido y, lo que es más importante, la prioridad asignada, casi en un 100%, a los problemas operacionales.

Sólo algunos usuarios continúan aferrándose a la construcción de soluciones basadas en enormes depósitos de datos. El impulso a estos esfuerzos, tan gigantescos como los de una "misión al planeta Marte", proviene generalmente de los vendedores de equipos, de consultores y de vendedores de sistemas de gestión de bases de datos relacionales (SGBDR).

Soluciones más ingeniosas

Pensamos que la situación va a mejorar rápidamente, y que en 1997 o 1998 todas las empresas y organizaciones informáticas habrán adquirido la experiencia de la construcción de sistemas data warehouse, fundados sobre la base de un progreso analítico exhaustivo. La construcción de las bases de datos más importantes será facilitada relativamente por las mejoras que los proveedores continuarán aportando, y por la utilización generalizada de servidores de 64 bits. La etapa final, entre los años 1998 y 2000, consistirá en la aparición de soluciones data warehouse cada vez más estándar. Muchas de las empresas que han optado por data warehouses buscan soluciones para necesidades casi idénticas (análisis financiero, estudio exacto de la demanda de los clientes, gestión de stocks, análisis de compras de consumidores ...). De todas formas, esto no favorece la posibilidad de desarrollar soluciones verticales, ya que, en efecto, aparecen de nuevo las mismas estructuras y peticiones o consultas de datos a través de diferentes sectores económicos..

Comenzar a pequeña escala

El error más grande cometido por las empresas está en pensar que los sistemas de data warehouse o de ayuda a las decisiones son necesariamente de gran dimensión. Los estudios de Meta Group muestran una correlación bastante exacta entre una gran dimensión de los sistemas y una deficiente elección técnica, así como una comprensión y un conocimiento mediocres de los problemas operacionales. La complejidad está en función lineal o directa de la dimensión y los costos varían de manera lineal con la complejidad. Por eso, Meta recomienda a los usuarios verificar que cada registro y cada columna de toda base de datos de un data warehouse estén justificados, en relación con las actividades y los objetivos de la empresa. Además, conviene suprimir de los data warehouses los datos que no son utilizados. Deberá tenerse en cuenta todo lo que permita reducir el tamaño del sistema, manteniendo al mismo tiempo su valor añadido.

Ese es el caso del particionamiento físico completo (que es diferente del reparto de carga de los sistemas de proceso masivamente paralelos), del aplazamiento de la carga de los registros de detalle hasta el momento en que se revelen como necesarias las informaciones elementales específicas, así como de una amplia utilización de estadísticas y muestreos en el estudio de escenarios probables. Si resultan indispensables los registros detallados, sólo deberán cargarse las columnas esenciales (generalmente en un servidor distinto).

Las infraestructuras de transferencia son esenciales

La arquitectura de data warehouse que funciona mejor es la que permite, sin centralizar los datos, transferirlos desde los sistemas de producción a los sistemas de supervisión o pilotaje. Esta arquitectura no suprime la necesidad de buffers de datos, de almacenamientos temporales, de gestión jerárquica del almacenamiento (Hierachical Storage Management o HSM) a nivel de registros, de silos de datos en cintas pre-cargadas, etc. De esto no se debe deducir que la arquitectura tenga que ser diseñada necesariamente con el objetivo de la información "justo a tiempo" (Just-in-Time Data o JITD), o de la información "disponible cuando se necesita" (As-Soon-As-Needed Data o ASAND), ni que los equipos intermedios que sirven de depósitos de datos no constituyan más que amortiguadores. La infraestructura de transferencia de datos se parece más a una red que a los data warehouses del pasado.

Los data warehouses pequeños son más económicos (algunos pueden incluso construirse mediante sistemas Intel de cuatro procesadores, a un precio reducido). Son más fluidos y flexibles (la duración de su reconstrucción se mide en horas, y no en días o meses) y pueden ser desplegados con más facilidad.

En algunos casos, estos depósitos son inmensos. Los data warehouses que han tenido éxito son aquellos que añaden a las bases de datos unos medios que permiten formular peticiones relativas al funcionamiento de la empresa. Por ejemplo, el diseño y la utilización de una base de datos para el análisis de tendencias (¿cómo evolucionan los clientes este año en relación con el año anterior?) difieren en gran medida de las que son necesarias para el tratamiento de listas (¿cuáles corresponden a este perfil?)

Expresar el problema

Ante todo, los data warehouses eficaces son aquellos que permiten decir: "Una vez que los usuarios han expresado su problema más urgente, ha sido fácil localizar los datos, extraerlos y suministrarlos".

No sucede en modo alguno así en el caso de los proyectos de infocentros y de depósitos de informaciones que se centran en la clonación de datos (requiriendo de todas formas reformateados y reorganizaciones) en una base de registro de actividades. Estos proyectos rara vez han sido terminados, ya que requieren definir "un modelo de datos de la empresa", cuya creación puede requerir a su vez varios años. Por el contrario, casi todos los data warehouses explotados con éxito en las empresas han sido diseñados a partir de problemas concretos.

Gestión de la Información

Los años 1997 y 1998 verán el desarrollo de una categoría de aplicaciones del tipo "business intelligence", que integrarán las funciones de servicio al cliente, de la asistencia técnica, de las ventas cruzadas, de la ayuda a la decisión, de la información geográfica y de los estudios de mercado, aumentando la utilización de los sistemas de ayuda a la decisión, de información geográfica y de inteligencia artificial.

Mientras continúa propagándose rápidamente el interés por los data warehouses y las herramientas DSS/EIS/OLAP, el concepto de ´data mining´ o ´minería de datos´ conserva un carácter mítico cercano a la alquimia.

Originalmente, la minería de datos ha sido definida como una aplicación de la inteligencia artificial (frecuentemente por medio de un procedimiento automatizado), permitiendo la búsqueda de perfiles de datos en grandes conjuntos. De todas formas, y cada vez en mayor medida, los documentos de marketing y la prensa especializada aplican este término a la explotación, por los usuarios finales, de herramientas de ayuda a la decisión, aunque se trate de una categoría de software que se diferencia técnicamente y que abarca herramientas de consulta apropiadas.

Según Meta Group, las soluciones de acceso a la información que tienen más éxito son aquellas que incluyen a la vez herramientas de data mining tradicionales y productos software DSS, destinados a los usuarios finales. Se prevé que el mercado data mining llegará a 300 millones de dólares en 1997 y cont