Del data warehouse al data mining: orden en la información de las empresas

Cómo sacar partido del magma de datos disponibles para mejorar la gestión

"La informática prometía una fuente de sabiduría, pero ha traído una inundación de datos". Esta frase de un destacado analista comienza a perder vigencia gracias a una nueva oleada de tecnologías de la información, encabezadas por el data warehouse y el data mining. Los avances técnicos han abierto una nueva etapa en la que el magma de datos se transforma en un almacén ordenado y limpio de información a la que se puede acceder fácilmente y cuyo análisis nos brinda conocimientos para afrontar el futuro.

Los sistemas de almacenamiento de datos y la tecnología de recuperación y análisis suponen una herramienta indispensable de gestión empresarial en un mundo cambiante en el que la información puntual es poder. Así opina la consultora Butler Group, que en un reciente informe sobre data warehousing asegura que las Tecnologías de la Información (TI) han sido durante mucho tiempo sinónimo de automatización en la mayor parte de las aplicaciones empresariales y su principal uso consistía en conseguir la mayor eficiencia y rapidez en los procesos productivos. Sin embargo, esta utilidad corresponde únicamente a una fase histórica de sus aplicaciones al mundo empresarial, la que corresponde a sus primeros treinta años de vida. A medida que la era de las tecnologías de la información avanza y se consolida, el acento se traslada a la información en sí como elemento productivo y a su manejo rápido y eficaz como piedra angular de la gestión empresarial. En esta nueva etapa, las TI tienen su principal función en ser instrumentos de acceso a la información.

Por ejemplo, la sistematización de datos necesaria para efectuar un informe sobre la marcha de la actividad empresarial es, en sí mismo, resultado de la automatización. En el momento en que esa serie de datos se introducen comparaciones (respecto a las previsiones o el período precedente) entramos en el uso de la información: las conclusiones a las que lleguemos por la comparación de datos inducen a la acción, son una herramienta para tomar decisiones.

Una vez que la mayor parte de las organizaciones empresariales han apurado las posibilidades de mejora de su actividad que la automatización propicia, el punto de mira se dirige hacia cómo conseguir ventajas competitivas por otras vías. La introducción masiva de la informática en el mundo empresarial y administrativo ha generado una gran masa de datos a la que se puede sacar partido siempre y cuando se puedan establecer relaciones entre ellos que conviertan los datos en información útil para el desarrollo del negocio. Ese es el reto de la nueva oleada de TI.

Si en la etapa de automatización la utilidad de las tecnologías de la información en las empresas se concentraba en la parte productiva y administrativa, en la nueva fase en que la información está en el centro son las áreas comerciales, de distribución y de marketing las que cobran protagonismo para sacar ventaja a los competidores. Si antes el elemento clave para alcanzar el éxito empresarial era la eficiencia, ahora el enfoque de futuro se centra en la flexibilidad y la capacidad de reacción. Mucho más cuando los avances tecnológicos y las infraestructuras de telecomunicaciones hacen vislumbrar un futuro próximo en el que las operaciones y transacciones empresariales se realizarán en tiempo real.

En esta nueva perspectiva, las tecnologías de data warehouse o almacenamiento de datos, suponen una herramienta de incalculable valor, en la medida que permiten organizar la información y crear una lógica unificada para acceder a datos que pertenezcan a bases dispares, condición "sine qua non" para maximizar el aprovechamiento de la información disponible.

¿Qué se necesita, tecnológicamente hablando, para implantar un sistema data warehouse eficiente? La respuesta depende de la gama y la complejidad de las fuentes de datos que se quieran unificar pero, en cualquier caso, el sistema conjuga tecnologías en los siguientes niveles:

- Hardware: servidor, sea MPP o SMP

- Base de datos

- Middleware: une las diferentes bases de datos para conseguir el acceso ágil de los usuarios finales a toda la información disponible por la empresa.

- Herramientas para el usuario final: aplicaciones que permitan y faciliten el acceso a los datos y técnicas de relación, comparación y análisis.

- Herramientas de gestión de almacenamiento: aplicaciones que ordenen y reordenen los datos y permitan su reorganización según las necesidades.

- Servicios: soluciones específicas para adaptar el sistema a las características concretas de una compañía.

La elección genérica

Hay una serie de consejos prácticos en la vertiente tecnológica imprescindibles para garantizar el éxito del data warehouse como herramienta de apoyo a la toma de decisiones

Como paso previo a la implantación del sistema, hay que estudiar en profundidad la infraestructura existente para aprovecharla al máximo y, paralelamente, minimizar los riesgos de migración.

Ya en el momento de elegir el sistema, es indispensable optar por una arquitectura abierta, de manera que el sistema de almacenamiento de datos sea flexible y admita la mayor variedad de preguntas y vías de investigación para acceder a la totalidad de los datos y relacionarlos entre sí. De lo contrario, las perlas que buscamos seguirán sin ser descubiertas. La flexibilidad del sistema permite además una rápida adaptación a nuevos objetivos de gestión empresarial .

Tanto el aprovechamiento de las infraestructuras existentes como la flexibilidad del sistema son aspectos que quedan dentro de la elección del middleware, que proporciona conectividad entre servidores y redes heterogéneas y define vías de acceso ágiles y rápidas de los usuarios al data warehouse.

En cuanto a las bases de datos en sí, hay configuraciones especialmente diseñadas para soluciones de data warehouse, aunque los suministradores de bases de datos tradicionales de proceso transaccional han desarrollado herramientas complementarias para adaptarlas a las necesidades de este tipo de aplicaciones. Esta última opción tiene como ventaja que reduce los costes de formación.

Hay dos importantes fórmulas que la industria informática ha desarrollado para facilitar la introducción de sistemas de data warehouse y apoyo a la toma de decisiones en las empresas.

Proceso paralelo

Esta fórmula permite expandir un sistema mediante el aumento de los procesadores en el nivel específico en que es necesario, lo que elimina la necesidad de ampliar el sistema en su totalidad. La tecnología sólo puede ser plenamente explotada si se dispone de una combinación de hardware y software adecuado. Las arquitecturas de proceso paralelo aprovechan el uso de procesadores múltiples, amplia capacidad de memoria y muchas unidades de discos de almacenamiento.

Bases de datos post-relacionales (PRDBMS)

Esta nueva tecnología da respuesta al agotamiento de las posibilidades de los sistemas de gestión de bases de datos relacionales, SGBDR, y ofrece sus mismas prestaciones aunque implantadas en una arquitectura diseñada de forma más eficiente. Esta mayor eficiencia se consigue instaurando relaciones lógicas en vez de físicas, lo que hace que ya no sea necesario destinar más hardware a una solución para conseguir la ejecución de las funciones requeridas. El resultado es que la misma aplicación implantada en SGBDPR requiere menos hardware, puede dar servicio a un mayor número de usuarios y utilizar mecanismos intensivos de acceso a los datos más complejos. Asimismo, esta tecnología permite combinar las ventajas de los SGBD jerárquicas y las relacionales con un coste más reducido. Ambos sistemas aportan como ventaja que no resulta necesario disponer de servidores omnipotentes para implantar sistemas de data warehouse, sino que puede partirse de un nivel de hardware modesto y ampliarlo a me

Viñeta publicada el 20 de febrero de 1870 en La Flaca n.º 35 Tendencias

ny2 ACTUALIDAD

ny2 Sociedad de la información

Día de la Movilidad y el BYOD Coffee Break