La Red encierra su lado oscuro

Cuando la información se esconde

31 MAR 2006

La deep Web (Web oculta), también llamada Red invisible o Internet invisible, da nombre a la cantidad de información que, siendo accesible a través de Internet, no puede encontrarse mediante los buscadores tradicionales. A menudo, porque está encerrada en bases de datos o en forma de páginas dinámicas, como respuesta a búsquedas o peticiones específicas.

La Web oculta contiene hasta 500 veces más información que la que se puede encontrar en los buscadores tradicionales. Esta enorme cantidad de información está encerrada en bases de datos de las que se generan determinadas páginas web para responder a peticiones específicas. Aunque estas páginas dinámicas tienen una única URL con la que volver a acceder a ellas tantas veces se quiera, no son páginas estáticas persistentes o almacenadas, ni hay enlaces con los que se las pueda visitar desde otras páginas. La Web oculta también contiene sitios que requieren un registro o que de alguna otra manera restringen el acceso a sus páginas, impidiendo que los buscadores puedan explorarlas y creando copias en caché.
En este sentido, habrá que saber cómo los buscadores convencionales crean sus bases de datos: unos programas llamados spiders o web crawlers empiezan por leer páginas de una lista inicial de sitios web. Estos spiders leen primero cada página del sitio, marcan todos sus contenidos y añaden las palabras que encuentran a la base de datos del buscador.
Cuando un spider encuentra un hipervínculo a otra página, añade ese nuevo enlace a la lista de páginas que tienen que quedar marcadas. Tarde o temprano, el programa alcanza todas las páginas enlazadas, eso si el buscador antes no se queda sin tiempo o sin espacio en la memoria. Estas páginas enlazadas, que se pueden alcanzar desde otras páginas u otros sitios web, constituyen lo que para la mayoría de nosotros supone Internet, a lo que nos referimos cuando hablamos de La Web. Pues bien, de hecho, sólo hemos arañado la superficie, lo que hace que a este conjunto de información se le llame a menudo la Web Superficial.

¿Por qué no se encuentra la información más profunda?
Para los no iniciados: consideren un almacén de datos en el que un individuo, o una empresa, ha reunido libros, textos, artículos, imágenes, resultados de laboratorio y otros tipos de datos en diversos formatos. Normalmente, accederíamos a la información de esa base de datos mediante una petición o una búsqueda: tecleamos el objeto o la palabra clave que estamos buscando, la base de datos recoge el contenido apropiado y se nos enseña una página con los resultados de nuestra búsqueda.
Si podemos hacer esto fácilmente, ¿por qué no puede un buscador? Damos por hecho que el buscador puede encontrar la página que buscamos y que capturará el texto en esa página y en cualquier otra página que pueda incluir hipervínculos estáticos de la misma. Pero, a diferencia de lo que haría un usuario, el spider no sabe qué palabras debería teclear en el campo de búsqueda. Como es lógico, no puede teclear cualquier palabra de la que tiene conocimiento, y no sabe qué es relevante para ese sitio o base de datos en particular. Si no hay una manera fácil de investigar, los datos subyacentes simplemente permanecerán invisibles para el buscador. De hecho, cualquier página que no esté conectada por enlaces desde las páginas de la lista inicial del spider permanecerá invisible y, por consiguiente, no será parte de la Web Superficial tal y como el spider la define.

¿Cuánto de profunda?, ¿cómo de grande?
A día de hoy, se estima que la Web oculta suma 7.500 TB, con más de 250.000 sites y 500.000 millones de documentos individuales. Y se hace más grande y más profunda a cada minuto que pasa. Dos factores parecen contribuir a ello: en primer lugar, las nuevas fuentes de datos tienden a ser del tipo de búsqueda/petición dinámica, que son, en general, más útiles que las páginas estáticas. En segundo lugar, los gobiernos de todo el mundo se han comprometido a permitir el acceso a sus documentos oficiales y registros por Internet.