Las bases de datos en paralelo plantean problemas de gestión
Según un estudio de Performance Consulting
Para gestionar con eficacia las bases de datos en paralelo, los DSI (Directores de Sistemas de la Información) deben superar una serie de dificultades inherentes a este tipo de bases. Según un estudio de Performance Consulting, tanto la arquitectura del proceso en paralelo como el tamaño de la base de datos plantean problemas importantes.
Las corporaciones que optan por un modelo de bases de datos en paralelo se enfrentan a un conjunto importante de problemas de gestión, algunos relativos a la arquitectura del proceso en paralelo y otros que simplemente tienen que ver con el tamaño de la base de datos.
Para ayudar a los usuarios a hacer frente estos problemas, la firma de consultoría Performance Consulting ha identificado cinco rasgos principales de las bases de datos en paralelo que pueden hacer más complejo el trabajo de los responsables de sistemas de la información en las empresas.
En primer lugar, hay que tener en cuenta el movimiento y transferencia de los datos. Todas las tareas relacionadas con cargar bases de datos en paralelo basadas en servidor desde un mainframe o desde almacenamientos de datos antiguos requiere una variedad de herramientas. Las herramientas permiten a los usuarios seleccionar los datos fuente, moverlos eficientemente a través de la red, y cargarlos en una base de datos de proceso en paralelo. Entre las cuestiones relacionadas con este punto se encuentra la facilidad con la que las bases de datos en paralelo pueden ser actualizadas o renovadas.
Para gestionar correctamente las bases de datos en paralelo, también hay que tener muy en cuenta todo lo relativo al almacenamiento de los datos. Las bases de datos de gran tamaño requieren una gran cantidad de espacio de almacenamiento en discos, lo que significa la utilización de RAID (Redundant Arrays of Inexpensive Disks), que utilizan diferentes técnicas para almacenar, proteger y acceder a datos.
Otro de los problemas más característicos a los que se enfrentan los Directores de Sistemas de la Información (DSI) cuando trabajan con bases de datos en paralelo es la partición de los datos. Una de las partes fundamentales del proceso es la relativa a la asignación de datos a procesadores o nudos específicos de una base de datos en paralelo. Esto puede ser de importancia crítica para alcanzar un rendimiento óptimo. En este sentido, suelen existir "zonas calientes", en las que una base de datos o parte de una base de datos está siendo utilizada con gran intensidad. Por ejemplo, en la DB2 Parallel Edition funcionando en el RISC System/6000 Scalable Processor, IBM ofrece un par de herramientas para detectar zonas calientes y reparticionar la base de datos en paralelo.
En este punto, la oferta con la que se encuentran los responsables de informática de las grandes corporaciones se divide en dos grandes grupos. Por un lado, algunas herramientas se limitan a ofertar tablas de particionamiento, mientras que otras realizan la partición a nivel de columna o de fila.
Otro de los puntos claves en la gestión de las bases de datos en paralelo es la optimización de consultas de Datos. El objetivo es claro: optimizar las consultas con el fin de crear la mejor ruta para los datos requeridos. Según la consultora Performance Consulting, este proceso resulta difícil y complejo cuando se debe realizar en las bases de datos en paralelo. Generalmente, para optimizar la consulta en cuestión, las bases de datos relacionales dependen de información estadística, como la cantidad de datos almacenados.
Para obtener esa información, hay que hacer funcionar programas utilitarios que realicen el escaneado de toda la base de datos. Mantener actualizadas todas estas informaciones estadísticas puede ser una tarea difícil en una base de datos en paralelo. Según Performance Consulting, los usuarios deberán preguntar cómo pueden optimizarse las consultas de datos, qué programas utilitarios están disponibles, y cómo funcionan al aumentar el tamaño de la base de datos.
El último punto que hay que tener en cuenta es todo lo relativo a las herramientas que automatizan las tareas administrativas estándar de la base de datos. En este ámbito, Performance Consulting asegura que se requiere un grado de automatización operacional que no era necesario antes.
Problemas de la gestión de datos en paralelo
- Movimiento y transferencia de los datos
- Almacenamiento de los datos
- Partición de los datos
- Optimización de las consultas
- Operaciones