El INE logra un hito con el Censo 2001
El procesamiento de 34 TB de información en 3 meses avalan su éxito
Procesar 34 Terabytes de información en tres meses no es nada fácil. Pero no es imposible si se dispone de la arquitectura informática y los sistemas de almacenamiento adecuados. Así lo ha demostrado el Instituto Nacional de Estadística (INE), que ha logrado hacer en tres meses lo que hace una década le costó tres años: el último censo de población y viviendas, recopilando los datos del año 2001. Y en todo este proceso ha tenido mucho que ver la evolución de las herramientas informáticas desde 1991, cuando se empezó a preparar el proyecto. Asimismo, ha sido esencial la inversión realizada por la Administración, de 12 millones de euros (de los que un 7% se destinó a la adquisición y gestión de los equipos informáticos) y la participación de empresas de la talla de Fujitsu Siemens, Veritas, Indra, Telefónica, Telefónica Móviles, Atento, Microsoft, EMC2 y ODEC.
El mayor proyecto informático del mundo de gestión documental avanzada
Esta sentencia es el eslogan que protagonizó la campaña de publicidad del proyecto del centro de procesamiento informático del Censo de Población y Viviendas 2001. Una afirmación que, como asegura José Antonio Perea, coordinador general de los censos de población y viviendas 2001 de la Subdirección General de Informática Estadística del INE, aunque suene “pretenciosa”, es cierta. No en vano, las cifras que se derivan del proyecto son más que impactantes: se ha logrado procesar desde noviembre hasta febrero de este año en el centro de procesamiento informático abierto para esta tarea y ubicado en San Fernando de Henares, 60 millones de cuestionarios, o, lo que es lo mismo, 34 Terabytes de información, recopilada en su mayoría por 34.000 agentes que visitaron 13 millones de hogares, y otros obtenidos desde 21 millones de direcciones postales y a través de Internet. Sí, a través de Internet, pues, por primera vez un país ha puesto a disposición de todos sus ciudadanos la posibilidad de rellenar el censo vía web, incluso para los invidentes, gracias a nuevas tecnologías. “EE.UU., Singapur y Suiza ya habían hecho aunque no abarcaban a toda la población, como ocurre en el caso español” -puntualiza Perea. Claro que los resultados aún dejan mucho que desear. Tan sólo han rellenado el censo por Internet un 0,097% de los hogares españoles, una cifra bajísima, debida, dice el coordinador del proyecto, a la falta de madurez de Internet en España y a una “campaña de publicidad no acertada, que se agravó con la actitud de muchos agentes censales que no informaban a los ciudadanos de esta posibilidad, temiendo perder el dinero que ganaban por cada cuestionario que repartían en los hogares”.
El reto de procesar 34 Terabytes
Como explica Perea, los proyectos censales son los mayores proyectos de gestión documental del mundo, “Hablamos de toda la información referente a un país y, además, son iniciativas claves para introducir las NT y modernizar la Administración. Nuestro objetivo principal era conseguir esta gestión documental y lograr que su procesamiento fuera más rápido. La diferencia de nuestro proyecto respecto a los realizado en otros países es que nosotros sí hemos tardado el tiempo previsto. Por ejemplo, el proyecto de EE.UU. consistía en procesar 150 millones de formularios y para ello tenían, entre otras herramientas, 180 escáneres a su disposición mucho más rápidos que los nuestros. Sin embargo, al final ellos tardaron un año y nosotros sólo tres meses”.
En este proceso, ha sido clave la tecnología de las empresas involucradas en el proyecto. “Necesitábamos que se involucraran en este proyecto empresas punteras y para ello tuvimos que vendérselo como un escaparate para sus tecnologías, más que como un beneficio económico”. Así, se convocó, como se hace en proyectos públicos, un concurso al que se presentaron las principales compañías del sector desde IBM a Compaq (ahora fusionada con HP). Fue Fujitsu Siemens quien se convirtió en el integrador de la iniciativa.
“Nosotros ya habíamos estado estudiando la gestión documental avanzada, la digitalización de las imágenes, el reconocimiento de caracteres y las arquitecturas de almacenamiento desde 1991, con lo que ya teníamos algo avanzado el proyecto. Después, lo primero que tuvimos que decidir era por qué entorno apostábamos. Nos decidimos por Windows ante Unix, a pesar de las críticas de mucha gente, por diversas razones, como el conocimiento de los técnicos, la rapidez con la que podríamos tomar decisiones críticas y por su sencillez de uso. Y acertamos. Aunque tuvimos que sortear graves problemas”. Entre ellos, uno que estuvo a punto de hacer que el proyecto no saliera adelante. Como señala Perea, “un proceso de datos importante puede llegar a tener entre 2 o 3 TB, de hecho, nosotros necesitábamos 4,5, es decir, superar más del 100% los límites de las actuales tecnologías de Windows pues la información era mucha y se agravaba con la complejidad del multilingüismo que hay en España (los formularios estaban, además de en castellano, en gallego, catalán, mallorquín y euskera). El problema era que la tecnología Windows no llegaba más allá de los 2 TB. La única solución es que algún producto nos permitiera manejar esos volúmenes de información. Así es como encontramos la herramienta de Veritas, la denominada Veritas Volume Manager 2.7”. Ésta les permitió, explica el coordinador, a solventar ese problema sin dejar Windows, “Sin ella hubiésemos tenido que cambiar el procedimiento con sistema 0+1 y arquitectura SAN y posiblemente no habríamos tenido éxito. No había una referencia mundial de alguien que quisiera gestionar tanto volumen de información en Windows en sólo tres meses y hubiésemos tenido que ir a entornos Unix o cambiar la estructura de recogida de datos. En esos momentos nadie apostaba por nosotros. Incluso en el momento en el que nos decidimos por Veritas había intranquilidad, dependíamos totalmente de ellos. Pero al final, gracias a su herramienta de virtualización del almacenamiento conseguimos gestionar estos volúmenes con Windows”.
Otra de las decisiones importantes en el proyecto fue la arquitectura. La elección de una Storage Area Network (SAN), basada en servidores cluster, sistemas de backup y entorno de almacenamiento con 34 terabytes en RAID (0+1), fue debido a que su implantación no es complicada y posibilita disponer de todos los datos de forma centralizada y a través de una red de fibra óptica con múltiples servidores y de forma heterogénea. “Además –señala Perea- el futuro de la arquitectura, una vez que hayamos finalizado el proyecto, depende mucho de la propia arquitectura. Si trabajáramos con