El toque de midas

Cómo conectar los datos en oro

En algún lugar profundo dentro de la masa pulsante de bits y bytes que recorren una organización están las respuestas a los problemas más desconcertantes de cualquier compañía. ¿Qué clientes se convertirán en competidores? ¿Qué ofertas incitarán a los clientes a comprar más? ¿Cuáles son las señales de una actividad fraudulenta?

El concepto de Data Warehouse es un paso en la dirección correcta para obtener respuestas a las preguntas planteadas anteriormente. Sin embargo, si una empresa desea realmente alcanzar grandes beneficios de su almacén o de sus repositorios de datos, necesitará recurrir a la "minería de datos". El data mining consiste en penetrar a través de grandes volúmenes de información para descubrir relaciones o responder a cuestiones específicas que son demasiado amplias para las herramientas de consulta de datos tradicionales.

Fundamentalmente, la minería de datos es un análisis estadístico, y se ha venido realizando desde que existen las matemáticas. Sin embargo, hasta hace poco, el análisis estadístico era un proceso lento y manual, y su exactitud dependía en gran medida de la persona que lo realizaba. Esto ya no es así. Hoy, gracias al grado de madurez alcanzado por las redes neuronales y otras tecnologías sofisticadas, existen herramientas que automatizan ese proceso, convirtiendo a la minería de datos en una solución práctica para una amplia variedad de empresas. Si se combinan estas herramientas con una base cada vez más amplia de datos de empresa accesibles -frecuentemente en forma de un data warehouse- cualquier compañía tiene a su disposición una herramienta con enormes implicaciones.

Modelización predictiva

Para acceder a todo este potencial y aprovecharlo se requiere un conocimiento básico del data mining, que es tan compleja como su contrapunto manual, el análisis estadístico. El data mining destinado al descubrimiento de información, incluye cuatro operaciones: la modelización predictiva, la segmentación de bases de datos, el análisis de relaciones mutuas, y la detección de desviaciones. Para realizar estas operaciones se necesita una variedad de herramientas, ya que los diversos tipos de datos se comportan de forma diferente.

Mediante los modelos predictivos se intenta predecir un evento específico (por ejemplo, que clientes de un banco van a pasar a la competencia). En este caso se asume que una compañía se enfrenta a una cuestión específica a la que está intentando responder, y se intenta obtener la respuesta asignando un rango o categoría que determine la probabilidad de ciertos resultados.

En términos generales, un sistema de modelización predictiva funciona aproximadamente así: una compañía decide lo que desea investigar; por ejemplo, qué clientes van a abandonarla probablemente. Para ello obtiene una muestra de datos "limpios" sobre clientes que la han abandonado, y los alimenta al sistema de modelización predictiva, especificando que ésa es la muestra de clientes "malos". Además, toma una muestra de datos de clientes que han permanecido fieles desde hace mucho tiempo, indicando que ésa es la muestra de los clientes "buenos". La herramienta realiza entonces una búsqueda en estas muestras para descubrir variables y combinaciones de variables que formen los perfiles típicos de clientes "buenos" y "malos", y presenta una clasificación o ranking de esas variables. Los resultados podrían entonces aparecer así: los clientes de más de 50 años, con unos ingresos anuales superiores a 10 millones de pesetas, varones, con un automóvil grande y que son propietarios de su vivienda, muestran una probabilidad del 30 por ciento de dejar de serlo, mientras que los clientes con edades de entre 18 y 25 años, con ingresos anuales inferiores a tres millones de pesetas, propietarios de un automóvil pequeño, con vivienda en alquiler y pertenecientes al sexo masculino presentan una posibilidad del 70 por ciento de dejar de ser clientes.

Con estos resultados, una compañía puede realizar una consulta en su base de clientes con el fin de elaborar listas de aquellos que se ajustan a esos perfiles y diseñar programas de marketing dirigidos a los grupos definidos. Además, cuando el sistema de modelización reciba más datos, irá "aprendiendo" y realizará previsiones cada vez más exactas.

Las herramientas de modelización predictiva pueden ser segmentadas en varios tipos, los más corrientes de los cuales son los productos de redes neuronales. Las redes neuronales son aplicaciones de ordenador que simulan las funciones del cerebro humano.

Estas redes pueden recibir entrenamiento y tienen capacidad para el razonamiento no lineal que es típico de muchos seres humanos que "saltan a conclusiones".

El sistema de red neuronal de modelización predictiva es ideal para las compañías que disponen de una gran profundidad de información estadística, y para los analistas que ya están realizando sus propios análisis, ya que las redes neuronales funcionan con mucha más rapidez que cualquier ser humano trabajando en una hoja de cálculo.

Sigue siendo debatible si el pensamiento humano simulado de un sistema de modelización mediante red neuronal es más exacto que el pensamiento humano propiamente dicho.

Predicciones inducidas

Según los usuarios, el inconveniente de los productos de redes neuronales es que son una especie de "caja negra". Se alimentan datos y se extraen resultados, pero la herramienta no indica cómo llega a sus conclusiones. Y a veces el "cómo" es tan revelador como el "qué", según dichos usuarios.

Hay un tipo alternativo de herramienta de modelización predictiva, que utiliza algoritmos de razonamiento inductivo en lugar de redes neuronales.

El método de razonamiento inductivo es una alternativa mejor para los analistas que tienen poco interés en modelos extraordinariamente complejos y preferirían tener una visión en profundidad de los datos propiamente dichos.

Las herramientas inductivas, conocidas también como sistemas de modelización basados en reglas, pueden ser más apropiadas para manejar aquellos datos que no pueden cuantificarse con facilidad.

Los sistemas de predicción basados en redes neuronales deben cuantificar todos los datos, incluso aquellos que no son cuantificados de forma natural. En el caso de la predicción mediante reglas, los datos no necesitan ser numéricos, sino que se conserva la naturaleza o carácter de los datos.

Facilidad de uso

Todas estas herramientas no resultan particularmente fáciles de utilizar. Un factor a considerar al adquirir una aplicación de minería de datos es la forma en que se alimentarán los datos al sistema de modelización. Algunas herramientas funcionan en una estación de trabajo aparte, pero pueden ser conectadas a una red LAN. Otras funcionan en máquinas autónomas que no pueden automatizar la pesada tarea de transferir los datos.

Aparte de la conexión física con el sistema de minería de datos, analizar el modelo propiamente dicho puede resultar complejo y requiere por lo menos una persona muy capacitada en análisis matemático y, en el mejor de los casos, alguien con formación suficiente en análisis estadístico.

Según la consultora Andersen Consulting, no se puede comenzar a trabajar en la minería de datos tomando una herramienta de uso inmediato en forma de un paquete y cargando datos en ella. Una vez que se dispone de la herramienta, hay que aplicar los modelos.

Otras técnicas

Aparte de los sistemas de modelización predictiva, existe un grupo de productos que permiten descubrir relaciones antes de establecer las hipótesis. Estas son herramientas que pueden utilizarse previamente al sistema de modelización predictiva para descubrir datos sobre la empresa que uno no hubiera pensado en plantearse.

El ejemplo clásico de esta exploración es la analogía del carro de la comp

Viñeta publicada el 20 de febrero de 1870 en La Flaca n.º 35 Tendencias

ny2 ACTUALIDAD

ny2 Sociedad de la información

Día de la Movilidad y el BYOD Coffee Break