¿Cómo tratar lo que no se puede medir?

El teorema de Bayes lo intenta

31 MAR 2006

Hay quienes afirman que aquello que no se puede medir no puede recibir un tratamiento científico. Sin embargo, la lógica de Bayes ofrece una forma de medir cosas “inmedibles”, probando hipótesis y predicciones para optimizar conclusiones. Así, los denominados “filtros de Bayes” se han convertido en una herramienta de plena actualidad a la hora de activar políticas de seguridad anti-spam.

La lógica de Bayes es un tipo de análisis estadístico que permite cuantificar un resultado incierto, determinando la probabilidad de que ocurra, mediante el uso de datos relacionados previamente conocidos. Por su parte, la probabilidad básica resulta simple de calcular, porque se está tratando con una cantidad limitada de factores y posibilidades. Por ejemplo, si la única información de que disponemos a la hora de realizar una apuesta en una carrera de caballos es que hay 10 equinos participantes, podemos elegir cualquiera de los mismos como ganador basándonos en que la probabilidad de ganar es de 1 entre 10, es decir, de 0,10. Sin embargo, aplicar ese tipo de matemáticas a las carreras, probablemente redundará en pérdidas monetarias, y es aquí donde la lógica de Bayes entra en acción.
Volviendo a las carreras, podemos decir que cada uno de los caballos habrá corrido ya algunas carreras y poseerá, por lo tanto, un historial propio. Por ejemplo, si “Rayo” ha ganado todas las carreras en las que ha participado y “Trueno” las ha perdido todas, hay una base de evidencia para apostar por “Rayo”, en lugar de hacerlo por “Trueno”. Sin embargo, es viable el acceso a más información sobre cada equino participante. Por ejemplo, su ascendencia y genética de campeón; su rendimiento bajo diferentes condiciones climáticas; su posición de salida en la pista, así como el tiempo transcurrido desde la última carrera o los kilómetros de la misma.
En definitiva, toda esta información puede ayudarnos a efectuar una estimación sobre las posibilidades de victoria de un caballo mucho mejor que la simplista aproximación de “1 entre 10”, anteriormente mencionada. El análisis de todos esos factores constituye el “proceso de Bayes”, un método también muy utilizado en el mundo de los deportes.

Políticas anti-spam, vistas desde la lógica bayesiana
La aplicación de la lógica de Bayes a los problemas del spam se inició con el trabajo “A plan for spam” de Paul Graham en 2002, un método rápidamente adoptado por numerosos desarrolladores de software. Los filtros de spam bayesianos se basan en la premisa de que existen ciertas palabras que revelan la presencia de spam, es decir, de mensajes electrónicos, habitualmente de tipo comercial, no solicitados y en cantidades masivas. Mientras, hay otras acepciones que identifican al mensaje en cuestión como legítimo. Esto es algo que tiene en común el método de Bayes con la implementación de filtros basados en análisis del contenido, pero con la ventaja añadida de que los filtros de Bayes crean sus propias listas de palabras y características indicativas en lugar de trabajar con listas ya creadas manualmente.
Un filtro de Bayes comienza examinando un conjunto de mensajes de correo electrónico definido como spam y otro conjunto reconocido como legítimo para, a continuación, comparar el contenido de ambos, a nivel de cuerpo del mensaje, asunto, encabezamiento y metadatos, así como pares de palabras y frases e incluso código HTM. Así, se elabora una base de datos formada por palabras indicativas o tokens, a través de las que se pueden identificar futuros correos electrónicos, como spam o legítimos.
Asimismo, el beneficio añadido que genera el uso de los filtros de Bayes es que toman en consideración todo el contexto de un mensaje. Por ejemplo, muchos mensajes spam contienen la palabra “gratis” en el asunto, pero también la contienen algunos mensajes legítimos. Un filtro de Bayes detecta esa palabra, pero también busca otros indicativos o tokens en el mensaje, ya que identificar falsamente como spam un mensaje válido causa más problemas que dejar pasar algún mensaje de spam como legítimo. Según los defensores de los filtros Bayes, menos de un 1% de los mensajes identificados como spam por esos filtros son falsos positivos.