Data Warehouse: el gran dilema
Los problemas del almacén de datos
Crear un almacenamiento de datos de base Unix parecía la solución perfecta para atender a las demandas insaciables de datos de los usuarios de una compañía de servicios que suministra electricidad a aproximadamente un millón de clientes en Estados Unidos. La solución resultó perfecta, por lo menos, hasta que unos tiempos de extracción de datos demasiado lentos y la demanda de datos en tiempo real por parte de los usuarios comenzaron a causar efecto.
Al aumentar el número de organizaciones que incorporan el concepto de almacén de datos (Warehouse) a sus estrategias de empresa cliente/servidor, problemas como el descrito en la introducción de este artículo resultan frecuentes. Los datos corrompidos, las herramientas inmaduras y las infraestructuras de comunicación que no pueden atender la demanda, son obstáculos comunes que deben ser superados.
El problema es que no se puede comprar un almacén de datos, hay que crearlo. Y lo mismo que sucede en la mayoría de los proyectos de construcción, crear un almacén de datos requiere trabajar duro y estar dispuesto a mancharse las manos.
Datos sucios
Uno de los principales problemas para establecer un almacén de datos es conseguir que los datos sean consistentes. Por ejemplo, en uno de los sistemas, el campo que contiene el número de cliente puede ser designado de una forma, mientras que una segunda aplicación que utilice ese mismo número le aplica un descriptor diferente. Aunque la solución estricta según las reglas debería consistir en modificar los sistemas operacionales para obtener una mayor consistencia, intentar limpiar los sistemas antiguos es como hacer hervir el océano. Hay que ser bastante estricto para hacer que los datos sean correctos.
Un curso en remodelación
Para la mayor parte de los usuarios, la clave del Warehouse es la arquitectura de los datos, y los directores de informática se están enfrentando a la necesidad de remodelar dichos datos para sus nuevos usos previstos.
Cuando se desarrolla un sistema de operaciones, se diseña para facilitar el proceso de transacciones, pero en un entorno de soporte de decisiones, ese tipo de estructura de datos causa dificultades tanto al usuario como al sistema. Así, aunque los sistemas operacionales puedan residir en una base de datos completamente normalizada, la base de datos de almacenamiento puede estar desnormalizada. Esto hace más fácil para los usuarios finales localizar y aplicar los datos que necesitan, reduciendo al mismo tiempo las demandas a la base de datos de realizar uniones y otras operaciones para suministrar la información pedida.
El diseño de un almacén de datos suele empezar con la definición de los meta-datos necesarios. Una de las reglas para crear un almacén de datos es que tienen que estar soportados por un buen modelo lógico. Este modelo incluye atributos representativos, definiciones comerciales y nombres para el contenido del almacén.
La arquitectura primero
Otro planteamiento es al iniciar la construcción de un almacén de datos es determinar cómo será la arquitectura. Cuando se pretende que los analistas de bases de datos soporten este entorno, es importante comprobar que comprenden con claridad el concepto. Al ver los datos del almacenamiento por primera vez, los analistas de bases de datos tienden a pensar que no están normalizados.
¿Está preparada la red?
Uno de los elementos clave para transformar su almacén de datos de un proyecto piloto a la fase de producción es establecer la infraestructura necesaria para soportarlo. Para comenzar, necesita una mayor capacidad de red. La anchura de banda es un factor crítico en este caso.
Para resolver la situación, algunos usuarios han comenzado a definir subconjuntos de los datos que requieren realmente los usuarios finales para sus aplicaciones, y entonces transferir sólo los datos que necesitan las éstas.
Un segundo método para superar la falta de anchura de banda es compartir consultas y compartir informes, de forma que no tengamos a los usuarios volcados sobre la base de datos.
Con esta información, se puede aumentar la utilización del almacén de datos de tal forma que esté en línea con la capacidad de la red.
Las herramientas no son suficientes
Pero incluso si se establece correctamente la infraestructura, a veces las herramientas disponibles -desde los motores de base de datos, pasando por las herramientas de extracción y gestión de datos, hasta las herramientas de consulta para usuarios finales- no son suficientes.
Por ejemplo, muchas herramientas basadas en PCs no cumplen con los requerimientos debido a las limitaciones del desktop, concretamente, en lo relativo a memoria y diseño.
Prácticamente ninguna herramienta de gestión de almacén de datos está ofreciendo la velocidad suficiente. Uno de los problemas es que las herramientas sólo funcionan bien con una o dos plataformas. Por ejemplo, mientras que una herramienta de extracción de datos puede funcionar bien con CA-IDMS o el IMS de IBM, la misma herramienta no puede ser utilizada de manera efectiva con datos VSAM. Para muchos usuarios, la solución inmediata está en crear sus propias herramientas.
A pesar de las carencias de las herramientas actuales, muchos directores de informática parecen estar resolviendo el desafío. Una encuesta entre 300 asistentes a conferencias, realizada por la firma de consultoría Meta Group, demostró que el interés en los almacenes de datos (Warehouses) aumentó de un 5% del total de los asistentes en febrero de 1993, al 90% un año después.
Si los usuarios dicen que necesitan datos en tiempo real, hay que aceptarlo. Es responsabilidad del departamento informático suministrárselos.
Principales problemas
Remodelación. La creación de almacenes de datos requiere remodelar los datos para utilizarlos en un sistema de base de datos relacional o, en el mejor de los casos, para conversión de una base de datos relacional a otra.
Gestión. La gestión de los datos almacenados es un problema, en particular si el almacén está distribuido en múltiples servidores, como suele suceder. Las herramientas que en gran medida aún no han sido probadas en un entorno de producción y siguen teniendo grandes fallos de funcionalidad aumentan la complejidad de la tarea.
Infraestructura de comunicaciones. La infraestructura de comunicaciones tiene que cumplir con la tarea de transmitir una carga extraordinariamente mayor de consultas y respuestas, especialmente si gran parte del proceso se va a realizar localmente.
Almacén de Datos (Data Warehouse)
Un almacén de datos es una base de datos que suministra a los usuarios datos extraídos de sistemas de proceso de transacciones de producción y on-line, y soporta las actividades de análisis comercial. Al mismo tiempo, el almacén de datos protege la integridad y el rendimiento de los sistemas de producción de la empresa. Estableciendo un almacén de datos, los directores de Sistemas de Información pueden suministrar a los usuarios los datos que desean, preservando al mismo tiempo los sistemas existentes.