Data Warehousing
De cliente de datos a rey de la información
La competencia en el mercado es cada vez más fuerte, y lo mismo sucede con la concurrencia de ideas, decisiones y modelos. Aquí, el factor información desempeña un papel fundamental. En toda empresa está teniendo lugar actualmente un gran desbordamiento y exceso de datos, y sin embargo sigue habiendo escasez de informaciones, especialmente de aquellas que permitan obtener respuestas a cuestiones básicas y centrales. Sin embargo, el concepto de "Data/Information Warehouse" promete ofrecer ayuda en este sentido.
La acumulación de datos no es un fenómeno exclusivo de la era del ordenador. También las tabletas de piedra en las que los faraones egipcios grababan información sobre impuestos dejaban claro el problema de la recogida y acumulación de datos: estos tienen poco valor cuando no es posible evaluarlos ni utilizarlos. En consecuencia, acometieron el paso primero y más importante hacia una mejor utilización, consistente en describir el contenido de cada contingente de datos y establecer así un primer "Meta-Nivel". Por otra parte, el sistema de ficheros soportado por papel y utilizado durante siglos requería que los datos tuvieran una determinada forma y estructura, de manera que quedara patente su valor en relación con ideas, decisiones y modelos. El gran salto hacia adelante tuvo lugar al pasar de la acumulación a la selección y a la interpretación. Finalmente, no es necesario resaltar la enorme importancia de disponer de informaciones relevantes para un management eficiente desde el punto de vista competitivo.
En otro orden de cosas, a comienzos de los años 80 se difundió la tendencia a utilizar datos de transacciones para Sistemas de Información de Dirección, EIS (Executive Information Systems) o para Sistemas de Soporte de Decisiones, DSS (Decision Support Systems), y tampoco se consideraba contraproducente la idea de que un director utilizase su PC para transferir datos específicos desde el host y utilizarlos para sus objetivos concretos con ayuda de programas optimizados de selección y presentación. Sin embargo, pronto se constató que las soluciones de finales de los años 70 y comienzos de los 80 tenían un alcance y una fuerza bastante reducidos. Las carencias estaban tanto en la capacidad de servicio y rendimiento de las herramientas front-end como en la falta de consistencia, transparencia y relevancia de los datos host utilizables. Los sistemas operativos y los sistemas dispositivos estaban aún demasiado anclados en mundos diferentes.
Las experiencias obtenidas con los sistemas de información de Dirección y con los sistemas de soporte de decisiones desembocaron en un enfoque más amplio, que William Inmon, entonces en la firma especializada en bases de datos Prism Technologies, articuló bajo el concepto de "Data Warehousing".
Las promesas de diversos proveedores de sistemas de gestión de bases de datos (SGBD), de que con ayuda de sus herramientas de consulta fáciles de utilizar, que incluso pueden ser supuestamente instaladas por el usuario final, resulta fácil el aprovisionamiento y manejo de información en grandes bases de datos, deben ser acogidas con escepticismo. La experiencia derivada de aplicaciones importantes indica que en la práctica no es posible acceder en cualquier forma que uno desee a bases de datos de producción, ya que por una parte la estructura de los datos limita las posibilidades de análisis, y por otra es necesario considerar la relación y el comportamiento de la producción y de las transacciones. En consecuencia, la conversión de las bases de datos a almacenes de datos, en los que el usuario pueda hacer uso de informaciones, deberá tener lugar bajo determinados supuestos y condiciones. Esto incluye esencialmente lo relativo a la integridad de los datos, una preparación de los mismos enfocada temáticamente, una codificación unificada y común, y series de tiempo consistentes. Estas condiciones y supuestos previos deberán garantizar que los datos se establezcan y se preparen bajo criterios que sean verdaderamente relevantes para el usuario, y no, como suele suceder en las bases de datos de producción, bajo criterios relativos a procesos, aplicaciones y funciones. Una codificación común y unificada, siguiendo reglas formales y de contenido, garantizará que los datos procedentes de fuentes distintas -tanto internas como externas-, puedan ser utilizados de una misma forma y por igual. Por otra parte, en el almacén de datos o Data Warehouse tiene lugar la acumulación de los datos siguiendo secuencias de tiempo consistentes, de forma que resultan posibles tanto las comparaciones históricas como los pronósticos de futuro. También es un punto importante la integridad de los datos, que en un almacén de datos no son modificados ni actualizados, sino que únicamente tiene lugar una validación y un igualamiento o uniformización de los mismos.
Datos uniformes y completos
Por lo tanto, en el data warehouse están disponibles datos uniformes y completos y, además, el data warehouse y las bases de datos corrientes se diferencian también en que los datos se agrupan siguiendo en cada caso normas o principios distintos. Y también, la base de datos que contiene los meta-datos constituye un componente central y fundamental del data warehouse y contiene todas las informaciones necesarias para la gestión y la descripción de los mismos. Por lo general, no tiene lugar directamente la recogida de los datos de producción y su almacenamiento en el almacén de datos, sino que mediante extracción o agrupamiento puede reducirse extraordinariamente el contingente de datos y no obstante satisfacer las necesidades de información. En un data warehouse existen diferentes niveles de acumulación de datos, cuya función y contenido se describen en cada caso en la base de meta-datos. La gestión, organización y evaluación de los datos en el data warehouse requiere soluciones de software especiales, que a su vez plantean unos requerimientos muy altos a la plataforma de hardware instalada. El sistema de gestión o sistema operativo de un data warehouse se ocupa de la carga, el proceso y la integración de los datos a partir de las bases de datos de transacciones externas.
Como el contingente de usuarios consiste principalmente en personal directivo y técnico, es importante que no sean utilizables en el data warehouse únicamente datos internos. Por el contrario, es la combinación de datos internos y externos la que aporta muchas veces el nivel de información que se requiere al nivel de Dirección. La conversión de datos operativos a datos orientados a temas específicos tiene lugar con ayuda de herramientas de manipulación y formateado de datos, así como mediante la utilización de lenguajes de cuarta generación (4GL). Las consultas "sencillas" en lenguaje SQL sólo pueden realizar estas funciones de forma limitada.
Un arte
El arte de la acumulación o almacenamiento de datos en el data warehouse requiere también la capacidad para reducir el volumen de estos últimos sin que tengan lugar pérdidas considerables de información. En el estado actual de la técnica de bases de datos, no sólo pueden almacenarse, evaluarse y utilizarse datos codificados, sino también documentos, gráficos, secuencias video y otros elementos con estructuras diferentes. Por otra parte, en lo que se refiere a la organización del data warehouse, deberá estar determinada por las necesidades del usuario. Algunas funciones de las bases de datos transaccionales, como roll-back, recovery y multi-threading, resultan innecesarias, y también es posible reducir la cantidad de posibilidades de consulta. La estrategia de optimización en la organización de un data warehouse deberá estar dirigida por el contrario a la flexibilidad, eficiencia y capacidad de adaptación a unos requerimientos de información en cambio permanente.
Respecto a la base de meta-datos del data warehouse, no se trata de un simple Data