El teorema de Bayes se traduce en políticas de seguridad anti-spam

Los filtros se basan en el análisis del contenido

10 JUN 2005

Si bien hay quienes afirman que si se está trabajando con algo que no se puede medir no se está trabajando científicamente, la lógica de Bayes ofrece una forma de medir cosas “inmedibles”, probando hipótesis y predicciones para optimizar conclusiones. Así, los denominados “filtros de Bayes” se han convertido en una herramienta de plena actualidad a la hora de activar políticas de seguridad anti-spam.

La lógica de Bayes es un tipo de análisis estadístico que permite cuantificar un resultado incierto, determinando la probabilidad de que ocurra, mediante el uso de datos relacionados previamente conocidos. Por su parte, la probabilidad básica resulta simple de calcular, porque se está tratando con una cantidad limitada de factores y posibilidades. Por ejemplo, si la única información de que disponemos a la hora de realizar una apuesta en una carrera de caballos es que hay 10 equinos participantes, podemos elegir cualquiera de los mismos como ganador basándonos en que la probabilidad de ganar es de 1 entre 10, es decir, de 0,10. Sin embargo, aplicar ese tipo de matemáticas a las carreras, probablemente redundará en pérdidas monetarias, y es aquí donde la lógica de Bayes entra en acción.
Volviendo a las carreras, podemos decir que cada uno de los caballos habrá corrido ya algunas carreras y poseerá, por lo tanto, un historial propio. Por ejemplo, si “Rayo” ha ganado todas las carreras en las que ha participado y “Trueno” las ha perdido todas, hay una base de evidencia para apostar por “Rayo”, en lugar de hacerlo por “Trueno”. Sin embargo, es viable el acceso a más información sobre cada equino participante. Por ejemplo, su ascendencia y genética de campeón; su rendimiento bajo diferentes condiciones climáticas; su posición de salida en la pista, así como el tiempo transcurrido desde la última carrera o los kilómetros de la misma.
En definitiva, toda esta información puede ayudarnos a efectuar una estimación sobre las posibilidades de victoria de un caballo mucho mejor que la simplista aproximación de “1 entre 10”, anteriormente mencionada. El análisis de todos esos factores constituye el “proceso de Bayes”, un método también muy utilizado en el mundo de los deportes. Y es que los propietarios de los equipos y los entrenadores suelen utilizar a menudo el “análisis bayesiano” para analizar la forma en que se comportan los jugadores bajo condiciones adversas o en situaciones específicas, pudiendo utilizar esa información en sus decisiones sobre los jugadores que desean contratar o transferir.

Políticas anti-spam, vistas desde la lógica bayesiana
La aplicación de la lógica de Bayes a los problemas del spam se inició con el trabajo “A plan for spam” de Paul Graham en 2002, un método rápidamente adoptado por numerosos desarrolladores de software. Los filtros de spam bayesianos se basan en la premisa de que existen ciertas palabras que revelan la presencia de spam, es decir, de mensajes electrónicos, habitualmente de tipo comercial, no solicitados y en cantidades masivas. Mientras, hay otras acepciones que identifican al mensaje en cuestión como legítimo. Esto es algo que tiene en común el método de Bayes con la implementación de filtros basados en análisis del contenido, pero con la ventaja añadida de que los filtros de Bayes crean sus propias listas de palabras y características indicativas en lugar de trabajar con listas ya creadas manualmente.
Un filtro de Bayes comienza examinando un conjunto de mensajes de correo electrónico definido como spam y otro conjunto reconocido como legítimo para, a continuación, comparar el contenido de ambos, a nivel de cuerpo del mensaje, asunto, encabezamiento y metadatos, así como pares de palabras y frases e incluso código HTM. Así, se elabora una base de datos formada por palabras indicativas o tokens, a través de las que se pueden identificar futuros correos electrónicos, como spam o legítimos.
Asimismo, el beneficio añadido que genera el uso de los filtros de Bayes es que toman en consideración todo el contexto de un mensaje. Por ejemplo, muchos mensajes spam contienen la palabra “gratis” en el asunto, pero también la contienen algunos mensajes legítimos. Un filtro de Bayes detecta esa palabra, pero también busca otros indicativos o tokens en el mensaje, ya que identificar falsamente como spam un mensaje válido (lo cual se conoce como identificación falsa positiva) causa más problemas que dejar pasar algún mensaje de spam como legítimo.
Según los defensores de los filtros Bayes, menos de un 1% de los mensajes identificados como spam por esos filtros son falsos positivos.
Sin embargo, el verdadero poder de los mismos es su capacidad de “aprender”, es decir, de memorizar acepciones que pueden ser indicadores de la presencia de spam. De hecho, al marcar el usuario nuevos mensajes, el filtro actualiza su base de datos para identificar nuevos esquemas o tendencias de spam.

Bayes y su teorema
----------------------------
El clérigo inglés Thomas Bayes (1702-1761) es el autor del trabajo “An essay towards solving a problem in the doctrine of chances”. Publicado después de su muerte en 1763, este documento estableció lo que ahora conocemos como el Teorema de Bayes, que es una fórmula para estimar, en base a la probabilidad de que ocurran eventos relacionados pero independientes, la probabilidad de que una determinada cosa vaya a ocurrir. Aunque se utiliza aquí el término evento, puede interpretarse que significa la verdad o validez de una afirmación o proposición, como determinar si un mensaje específico es spam.
Antes de formular la ecuación, estableceremos algunas convenciones sobre notación procedentes del campo de la estadística. La expresión p (A) indica la probabilidad de que el evento A va a ocurrir. Cuando se dice p(A/B), significa “la probabilidad de que el evento A va a ocurrir, dado que el evento B ya ha ocurrido”. Esta teoría demuestra que el análisis bayesiano está basado en cálculos que utilizan un conocimiento previo.