Data warehouse, un concepto en busca de una tecnología
Informe de IDC
Si existe un mercado, según la opinión de IDC, que tiene un claro potencial de crecimiento para los próximos años es el de data warehouse. En este sentido, uno de los factores que más ha influido ha sido la explosión de la información. Además las grandes empresas son conscientes de que una de las llaves para conseguir una alta competitividad se sitúa precisamente en conocer el poder de la información.
Algo fundamental para analizar el mercado de data warehousing es la necesidad de definir la terminología. Aunque este mercado consiste en componentes de hardware, software y servicios, la definición operativa para este informe se ha basado únicamente en el software. Desde esta perspectiva, el mercado de data warehouse es el resultado del conjunto de tres mercados. El primero incluye herramientas que permitan la popularización del data warehousing, el segundo comprende aquellas herramientas necesarias para almacenar y manejar la información, y el tercer mercado está orientado a facilitar el conocimiento de la información contenida en el "warehouse". Por ello la tecnología está fuertemente dirigida a responder a los requerimientos originados tras esa explosión de la información.
Los sistemas de gestión de bases de datos (DBMS) son una clara consecuencia de las necesidades de conseguir una más efectiva utilización de la información. El advenimiento de los sistemas OLTP durante la mitad de los años setenta, junto con el inicio de la comercialización de sistemas de bases de datos a principios de los ochenta justifican la demanda por una mejor tecnología de la gestión de la información. Más recientemente la disponibilidad de dispositivos de almacenamiento, el abaratamiento de los Mips, y la aparición de herramientas que permiten construir y mantener data warehouses permite a los usuarios racionalizar el concepto de data warehouse y moverse desde la experimentación hacia la verdadera implementación. El creciente interés en el acceso a la información por parte del usuario final es el primer paso de una tendencia real cuyo objetivo es transformar el valor de la información operacional en las organizaciones.
Replicación de datos
La replicación de datos también lleva presente en el mercado desde hace años. Utilidades orientadas a procesos batch para copiar información de forma muy elemental han estado disponibles en el mercado desde hace ya tiempo. Pero quizás muchos de esos procesos batch han sido relegados hacia las "profundidades" de los centros de datos donde lo que hacían eran soportar las funciones de mantenimiento como backup y recuperación, y es precisamente ahora cuando empiezan a jugar un nuevo papel en el soporte del data warehousing.
Al mismo tiempo, los vendedores de DBMS atentos a esa explosión del potencial del DBMS distribuido se han dado cuenta de que el tiempo real de replicación es la llave que posibilitará disponer de la tecnología necesaria para el lanzamiento del concepto de DBMS distribuido. Las tendencias de migración también constituyen un factor importante a la hora de pensar en cómo las organizaciones intentan mover sus datos de misión-crítica hacia bases de datos relacionales sin interferir en el proceso de transacciones. Como resultado, ahora existe un resurgir en el interés con respecto a la replicación de datos en el sentido de que los fabricantes opinan que esta tecnología será la clave para soportar su información.
IDC también ha intentado definir este mercado de herramientas de replicación de datos, y afirma que es un derivado del mercado DBMS, y supone un cierto solapamiento con el mercado de data warehouse. La razón de este solapamiento es que mientras la tecnología de replicación de datos es la clave tecnológica para soportar la popularización del mercado data warehouse también supone funciones ajenas al mundo warehouse. Quizás el más comprensible uso de la tecnología de replicación de datos se encuentra en los procesos de migración desde una tecnología DBMS a cualquier otra.
Cuatro mercados
El mercado de data warehouse es un mercado ortogonal que comprende segmentos de cuatro mercados, que según IDC son: acceso a la información y EIS, DBMS, lenguajes de tercera generación y CASE.
El mercado de data warehouse, ha sido según IDC, construido a partir de la falta de tecnologías disponibles, además de que una tecnología con una óptima relación coste/efectividad necesaria para manejar altos volúmenes de datos en un "warehouse" todavía está por definir. Como resultado de esto la mayoría de las soluciones de warehousing requieren una solución altamente customizada. Además, el desarrollo de estas soluciones son realmente costosas debido fundamentalmente a los altos costes asociados con el desarrollo de código, y con el mantenimiento, ya que el código base aumenta los costes puesto que cualquier cambio en los sistemas operativo significa, en la mayoría de los casos, cambios en el código base del "warehouse". Quizás los altos costes, principal característica actual de las soluciones de data warehouse podrían reducirse significativamente si las herramientas estuvieran disponibles para permitir una mayor automatización, funcionalidad y gestión de las actividades de data warehouse.
Por otra parte el incremento en la demanda de tecnología data warehouse combinada con la fuerza tecnológica, característica actual de este mercado, ayuda a definir los principales condicionantes del mercado. Estos condicionantes están basados en métodos automatizados a través de los cuales la información operacional pueden ser extraída, transformada, almacenada y mantenida de una forma eficiente con unos costes efectivos en data warehouse. La mayoría de los vendedores de herramientas de datawarehouse han redireccionado la replicación de información operacional hacia datawarehouse por medio de cargas de información basadas en procesos batch usando un 3GL. Quizás los esfuerzos por desarrollar esas cargas podrían ser reducidos a través del uso de plantillas, lo cual reflejaría un acercamiento en enlazar la información operacional con el datawarehouse. Pero quizás, un aspecto importante en ese acercamiento es la incapacidad de aproximar la creación de warehouse y la actualización con un alto nivel de abstracción. Las herramientas que logran que el concepto de data warehouse se enfoque hacia un nivel de metainforamción y comunicación directamente con las bases de datos operacionales lo consiguen simplemente cambiando, simplificando y mejorando los mecanismos de almacenamiento del data warehouse.
Transformar la información
Pero, sin embargo, no existe razón alguna, a opinión de IDC, para que esas herramientas de replicación no puedan llevar a cabo una transformación que las capacite para desplegar y agregar información operacional como si fuera un movimiento dentro de un data warehouse. El concepto de direccionamiento de la información extraída, transformada y almacenada con un alto nivel de abstracción y como una función de la tecnología DBMS permite a los vendedores reforzar sus inversiones para conseguir un producto altamente competitivo. Esta aproximación también reduce el mantenimiento debido a su propio enfoque y a que permite disponer de una mayor flexibilidad y redireccionamiento en la información disponible.
La tecnología necesaria para popularizar el datawarehouse podría estar direccionada por una derivación de la tecnología de replicación de datos, ya que quizás la gestión de información también supone un reto. En este sentido la tecnología relacional es ideal en muchos aspectos para soportar las necesidades del datawarehouse. La capacidad de un RDBMS para soportar conjuntos de información multidimensional en aquellos usuarios que necesiten dirigir las actividades de la información, requerirá una recuperación de la información que reside en la intersección de una query de dimensión N. Otras característi