Bases de datos en paralelo; a la sombra del desarrollo hardware
Los suministradores clarifican el estado actual de esta tecnología
La proliferación de arquitecturas de procesamiento paralelo, tanto SMP como MPPha obligado a los suministradores de bases de datos a integrar en sus soluciones la tecnología de bases de datos en paralelo. El mayor rendimiento y el menor tiempo de respuesta son algunas de las ventajas asociadas a estas BBDD. La dificultad de administrar estos entornos, los problemas de seguridad y la necesidad de consolidar el hardware sobre las que se implementan estas soluciones se presentan como sus principales puntos débiles.
La mayoría de los suministradores de bases de datos han optado por incorporar en sus soluciones tradicionales la tecnología de bases de datos para proceso paralelo. Mientras algunos se limitan a ofrecer soporte a SMP, otros han decidido ampliar su oferta también a las arquitecturas MPP.
IBM ha dotado a los componentes de la familia DB2, tanto a la reciente versión 4 de DB2 VMS, como a DB2 Cliente/Servidor (que engloba DB2 para OS/2 y para Unix) de ciertas funcionalidades de paralelismo.
IBM tiene también una BBDD en paralelo: la versión para AIX de DB2. Esta solución ha sido desarrollada para el sistema SP2 de IBM (plataforma hardware MPP con sistema operativo AIX y con arquitectura share-nothing). "Es el producto específicamente diseñado para una solución de data warehouse en este hardware MPP y es nuestra oferta en paralelismo de bases de datos para soluciones de queries complejas no planificadas del tipo minería de datos, data warehouse, etc", afirma Isabel Sánchez Rumeu, Product Manager de DB2 en IBM.
Mayor rendimiento
A la hora de determinar las ventajas de esta tecnología, los distintos fabricantes coinciden en señalar el aumento de rendimiento y la reducción del tiempo de respuesta como dos de las principales puntos fuertes. "Por supuesto, las ventajas son un tiempo de respuesta menor y un rendimiento mayor al realizarse el proceso en forma paralela. Esto ha permitido que ahora sean factibles nuevas aplicaciones de data warehouse y de minería de datos que antes eran impensables, y además a un precio asumible por el cliente", explica Isabel Sánchez Rumeu.
José López Rincón, Product Marketing Manager de Informix también coincide en afirmar que el aumento del rendimiento es una de las principales ventajas de las bases de datos en paralelo. "Con la primera generación de servidores de bases de datos relacionales a medida que se aumenta el número de recursos hardware el rendimiento no incrementa en una proporción de uno a uno, mientras que al incorporar el paralelismo interno en el núcleo del gestor sí se va consiguiendo", explica José López Rincón.
El Product Marketing Manager de Informix explica que, en el caso de las soluciones de su compañía, el aumento del rendimiento se debe en gran medida al hecho de ofrecer una arquitectura que "no sólo es capaz de aprovechar todos los recursos hardware, sino también de manejar con mejores tiempos de respuesta y mucho más fácilmente las grandes bases de datos (las VLDBs), que son críticas por ejemplo en entornos de data warehouse".
En este sentido, Informix hace algo más de dos años definió su arquitectura DSA (Dynamic Scalable Arquitecture) y rediseñó partiendo de cero toda su oferta de gestores para incorporar como prioridad principal el paralelismo en el núcleo del gestor. En 1993 se lanzó el primer producto, OnLine Dynamic Server y recientemente han presentado en España OnLine XPS (Extended Parallell Server), que está pensado para plataformas MPP y cluster.
Para López Rincón, las ventajas de incorporar el paralelismo en el núcleo del gestor se traducen también en una aumento de la escalabilidad y en un mejor aprovechamiento de los recursos porque, según afirma, "al incorporar el paralelismo interno en el núcleo del gestor el software que se necesita para implementar el paralelismo se tiene directamete en el motor del gestor, sin necesidad de añadir ningún módulo de software tradicional para permitir que el gestor se comporte como un servidor paralelo o para poder gestionar grandes volúmenes de información y aprovechar mejor los recursos de memoria".
Reducción del tiempo de respuesta
También desde Sybase se cree que las bases de datos en paralelo ofrecen grandes ventajas en el entorno del data warehouse, al permitir "atacar grandes volúmenes de datos en tiempos de respuesta cortos", según explica Arturo Gutiérrez, Responsable Preventa de Sybase. "No solamente se debe afrontar este problema de los grandes volúmenes de datos con las bases de datos paralelas, sino que hay que añadirle otras funcionalidades al servidor, como nuestra solución IQ Acelerator, que ofrece una nueva manera de indexación mediante bit-maps que permiten alcanzar ratios de respuesta inferiores entre 10 y 100 veces a los de las bases de datos tradicionales", asegura Arturo Gutiérrez.
La oferta de Sybase en este entorno es Navigation Server (comercializado como Sybase MPP), un gestor de bases de datos en paralelo. "Normalmente el SQL Server se mueve bien en arquitecturas uniprocesador y SMP desde 6 hasta 10 procesadores. Cuando nos estamos moviendo en arquitecturas de proceso masivamente paralelo (MPP) se necesita una arquitectura totalmente diferente y por eso hemos desarrollado Sybase MPP", explica Arturo Gutiérrez. "Desde el punto de vista del puesto cliente, Sybase MPP se comporta igual que SQL Server. Esta integración permite que en la parte de aplicación cliente no sean necesarias extensiones para funcionar en paralelo, puesto que el interface sigue siendo el mismo que había con SQL Server", afirma Arturo Gutiérrez.
En Oracle, Pilar Prados, Product Manager de Oracle 7, coincide en señalar el mayor rendimiento y el menor tiempo de respuesta como dos de las principales ventajas de las bases de datos en paralelo. La oferta de Oracle en este entorno es doble. Por una parte, Parallel Server, solución para MPP y máquinas en cluster, que según explica Pilar Prados "permite tener diferentes instancias de bases de datos o diferentes bases de datos trabajando de forma paralela pero accediendo a un único juego de ficheros de bases de datos a nivel de disco". La otra opción es Parallel Query, que permite "hacer muchas de las tareas críticas de las bases de datos en forma paralela", tanto en máquinas MPP en cluster o SMP.
Para Mauricio del Castillo, responsable de bases de datos en Software AG, la principal ventaja de la paralelización de las bases de datos es la disminución "del coste en tiempo de una pregunta o cualquier función de recuperación de la información que se le hace al sistema". Software AG ofrece para los entornos mainframe ADABAS SMP, una arquitectura en la que existe una memoria común y "n" procesadores iguales que acceden a una base de datos común. Respecto a los sistemas abiertos, Mauricio del Castillo comenta que Software AG de momento sólo ofrece soluciones para entornos SMP. "En el futuro pensamos en soluciones para MPP pero en función de lo que la tecnología nos ofrezca: hace falta sincronizar múltiples señales para responder a temas como la seguridad; no solamente hay que dar datos, sino que se deben asegurar los procesos correctos, sistemas de recuperación, de integridad de la información, etc."
Administración de las BBDD en paralelo
El tamaño de las bases de datos en paralelo así como la propia arquitectura de procesamiento en paralelo dificulta, según algunos analistas, la administración de estas soluciones. En este punto coinciden también algunos de los suministradores. Para Arturo Gutiérrez, de Sybase, la dificultad radica en la propia complejidad tanto del hardware como del software. "Navigation Server tiene un producto, Configuration, a partir de unos parámetros de entrada como puede ser plataforma hardware, requerimientos software y características de los datos sobre los que se funciona, ofrece una configuración óptima. Esto permite sim