Teoría y práctica del data mining

Qué es y para qué sirve la minería de datos

Data warehouse, data mart, data mining, OLAP, MOLAP, ROLAP, HOLAP. ¿Qué significa exactamente este baile de siglas y conceptos?; ¿qué tecnología es la más recomendable para cada necesidad específica?; ¿cuál es la utilidad real de la minería de datos?; ¿qué aplicaciones reales existen que demuestren su eficacia?.

Julian Kulkarni, jefe de marketing de productos de data minig de SAS Institute despeja las dudas teóricas y el Grupo Mondadori, el Postbank holandés y la Dirección General de la Policía Belga hacen buena la frase de que el movimiento se demuestra andando.

Las premisas...

El primer punto a tener en cuenta es diferenciar claramente tres conceptos: data warehouse, data mart y data mining. Un data warehouse es un almacén en el que residen todos los datos procedentes de las distintas plataformas informáticas de toda la compañía. Desde el data warehouse se establecen una serie de data marts que albergan información concreta de un área específica de la compañía: marketing, finanzas, etc. "El concepto es el mismo, se trata de tomar los datos de las distintas áreas dentro del data warehouse y organizarlos de tal forma que las personas de las áreas concretas puedan tener los datos que necesiten, de forma que puedan disponer de una referencia más ajustada. Ofrecen un acceso más rápido a la información exacta. Es en este concepto en el que se encuandra un data mart", explica Julian Kulkarni, jefe de marketing de productos de data mining.

También existe la posibilidad inversa: a partir de una serie de data marts acaba configurándose un data warehouse corporativo y la forma más usual es hacerlo desde el área de marketing, siendo como es un almacén de datos una herramienta de ayuda a la toma de decisiones.

"Así se van solucionando los problemas de negocio más específicos, conociendo aspectos importantes como quién o quienes son los clientes que más beneficios producen. Ofreciendo este concepto no es necesario remitirse a toda la información. Se trata de obtener respuestas a preguntas. Pienso que el marketing es el área al que acaba refieriéndose todo el proceso de recuperación de datos. El data warehouse entendido como un big bang puede a veces ser un error, aunque algunos fabricantes mantengan que es la única forma de solucionar los problemas", asegura Kulkarni.

El data minig, sin embargo, consiste en algo más preciso. Una vez que todos los datos están organizados, el data mining es una de las formas de explotar los datos. Existen varias herramientas para realizar esa explotación, como heramientas OLAP sistemas EIS, "query and reporting" y "business reporting". "El data mining es, entonces, una de las tecnologías que existen para explorar los datos y entender y solucionar los problemas de negocio. De hecho, es la técnica más avanzada de explotar los datos y de encontrar información que no aparece a simple vista, esos esquemas y tendencias escondidos en los datos. A través del data mining es más fácil cuantificar el resultado. Existen aplicaciones de marketing como perfiles de clientes, segmentación de mercado u otras áeas que utilizan técnicas de data minig para saber algo más acerca de los datos. El ejemplo típico es el análisis de la cesta de la compra, en el que se buscan los enlaces entre la compra de unos productos y de otros. Esto tiene como objeto optimizar el servicio a los clientes y facilitarles la compra", continúa Kulkarni.

Uno de los ejemplos en los que SAS ha trabajado es el de la cadena británica de supermercados de alimentación Tesco, que está utilizando data minig. "Ellos poseen datos de fuentes varias como los datos clásicos que obtienen desde el punto de venta electrónico o la información de las tarjetas de fidelización, que ofrecen un perfil aproximado de lo que compra cada cliente", prosigue el responsable de marketing de data mining de SAS Institute.

Combinando estos datos con los obtenidos de otras áreas puede obtenerse un análisis acerca de las relaciones que existen entre unos productos y otros.

La rentabilidad del queso feta

El ejemplo más difundido dentro de estas técnicas de data mining es el de los pañales y la cerveza: se observó que los viernes por la tarde en las grandes áreas comerciales se producía un aumento en las ventas de cerveza. Al intentar analizar el por qué de este aumento pudo comprobarse que gran parte de las personas (hombres en su mayoría) que habían adquirido cerveza, también habían comprado pañales para bebé. Esto viene a decir que siempre que un varón de una edad determinada con hijos pequeños, cuando va a comprar pañales para el fin de semana compra también cerveza, de forma que para facilitar la compra de los dos artículos se colocaron en estanterías cercanas. Las ventas de cerveza, a raíz de este uso, aumentaron aún más.

Otro ejemplo que facilita Kulkarni es el del feta, "un queso griego que resultó ser uno de los artículos menos solicitados de toda una superficie comercial, hasta el punto de que su comercialización aportaba unos beneficios prácticamente nulos. El supermercado en cuestión se planteó la posibilidad de suprimirlo de su catálogo de ofertas. Pero al realizar un análisis del perfil de las pocas personas que lo compraban se dieron cuenta de que, casualmente, eran los clientes que más dinero se gastaban en su cesta de la compra y que más fieles eran al negocio. Por esa razón decidieron conservar el queso feta en la oferta del supermercado", explica Kulkarni.

El data mining puede ayudar a controlar la psicología del consumidor y su comportamiento ante los estímulos de marketing, la publicidad y todos los métodos de persuasión que utilizan las empresas para dirigirse a sus consumidores. Y esto es útil tanto para diseñar este tipo de estrategias como para analizar a posteriori sus efectos.

SAS Institute mantiene que la utilización del data mining es el paso lógico, el nivel siguiente a la implementación de un data warehouse.¿Pero es posible utilizar las técnicas de data minig sin pasar por la creación de un almacén de datos?.

Según Julian Kulkarni es posible implementar estas técnicas, porque al fin y al cabo no son más que procedimientos de análisis.

"Lo que ocurre es que siempre resultarán más efectivas estas técnicas si existe un data warehouse por detrás, ya que cuanto más "limpios" estén los datos sobre los que se va a trabajar, de mayor calidad y precisión será el resultado del análisis que se obtenga. Es muy sencillo: se trata de que cuanto mejor están organizados los datos, y ahí el data warehouse o el data mart ofrecen la base para trabajar, más apurado es el resultado", explica.

OLAP, MOLAP, ROLAP, HOLAP

El procesamiento analítico de transacciones on line (OLAP) es una forma de explotación de los datos. La M y la R delante de las siglas OLAP significan Multidimensional y Relational, respectivamente. "Básicamente", explica Kulkarni, "las diferencias son que en la tecnología multidimensional se han predefinido, se han creado, una serie de dimensiones, estableciendo una visión en los datos basada en las tendencias de consulta de los usuarios".

De esta forma, el procesamiento analítico on-line multidimensional es más rápido porque esta predefinido, pero es menos flexible.

"En la tecnología ROLAP sucede lo contrario, es una técnica más flexible pero menos rápida porque hay que acceder a todos los datos. Es un método muy útil, pero para los usuarios que quieren centrarse en un análisis específico resulta más complicado", según palabras de Julian Kulkarni.

A estas dos técnicas hay que sumar una nueva: HOLAP (Hybrid On-Line Analitical Processing), que viene a ser una mezcla de las dos anteriores.

Evitando confusiones

SAS siempre ha reclamado el honor de ser la primera y única compañía en suministrar una solución end-to-end en el terreno de los almacenes de datos.

"Eso

Viñeta publicada el 20 de febrero de 1870 en La Flaca n.º 35 Tendencias

ny2 ACTUALIDAD

ny2 Sociedad de la información

Día de la Movilidad y el BYOD Coffee Break