Disponibilidad como premisa fundamental

Cuando una posición decimal puede significar el éxito

05 NOV 1999

Antes de 1990, las empresas disponían de dos formas principales de resolver sus problemas de disponibilidad en el área de los Sistemas de Información: por una parte, podían utilizar los mejores productos estándar disponibles y esperar lo mejor. Con esta opción, la carga de suministrar una solución de alta disponibilidad recaía sobre el departamento informático, y no era una solución de resultado muy predecible. O también podían adquirir de un vendedor especializado en este tipo de soluciones una solución estrechamente integrada. En el futuro, la alta disponibilidad se convertirá en una característica habitual de los sistemas hardware.

Actualmente está aumentando la utilización de sistemas más fiables para soportar cargas de proceso que van desde el uso de servidores de ficheros/impresión a redes OLTP sofisticadas y entornos de data warehouses, y muchas empresas tienen que hacer posible el acceso las 24 horas del día, 7 días a la semana a recursos de proceso utilizados en el soporte de operaciones multinacionales. Mientras que, hace unos años, establecer un entorno de sistema de alta disponibilidad para ofrecer a los usuarios funciones como el correo electrónico o el proceso groupware hubiera sido considerado un esfuerzo excesivo e inútil, hoy, aunque las aplicaciones de correo electrónico y groupware pueden no tener la misma prioridad que las redes de proceso OLTP o los sistemas de transferencia electrónica de fondos, la medida en que las empresas dependen de estas funciones está aumentando de forma extraordinaria.
En el entorno comercial actual, el costo de cualquier fallo o interrupción es sustancial. El costo de propiedad para sistemas estrechamente integrados, sólidos, potentes y capaces de proteger totalmente frente a cualquier alteración del proceso es con frecuencia inferior, para la mayoría de los entornos con gran intensidad de proceso OLTP, a los costos resultantes de una interrupción del proceso.
Estos costos incluyen los de personal, oportunidades perdidas, pérdida de reputación en el mercado y pérdida de clientes satisfechos ante la competencia.
La dificultad de ofrecer una solución que permita transferir sin fisuras el proceso en caso de fallo a una configuración similar aumenta con la complejidad del entorno de proceso y las aplicaciones. Ofrecer lo que parece ser un tiempo productivo del 100% en un servidor de ficheros 12 horas al día seis días a la semana es obviamente más fácil que ofrecer la misma eficiencia para un sistema de reservas online utilizado 24 horas al día siete días a la semana.

Clasificación de sistemas de Alta Disponibilidad
Los sistemas continuamente disponibles consisten en hardware y software diseñados para proteger frente a fallos a nivel de componentes y de sistemas. La complejidad y el costo de estas soluciones dependen de los tipos de servicios suministrados, de la cantidad de usuarios y de lo que los usuarios perciben como una interrupción de servicio aceptable (frente a una inaceptable).
Con el fin de clasificar las afirmaciones de marketing de los vendedores, IDC creó su Espectro de Disponibilidad o "Availability Spectrum". En lugar de analizar las diferentes afirmaciones de los vendedores respecto a Alta Disponibilidad, tolerancia a fallos o disponibilidad continua, el sistema Spectrum muestra cuatro niveles de disponibilidad, con atributos definidos de acuerdo con el impacto sobre un usuario prioritario y sobre las funciones de protección del sistema. IDC utiliza el término "altamente disponible" para abarcar los sistemas de todos los vendedores que afirman ofrecer alta disponibilidad, tolerancia a fallos o disponibilidad continua como parte de su estrategia de marketing para un determinado producto.
Bajo este enfoque, las soluciones ofrecidas por los vendedores se clasifican en orden de importancia según la cantidad de perturbación o alteración causada al usuario prioritario, contrastando esto mediante una comparación de las funciones y características de hardware y software. Otro factor que determina el lugar en que queda situada una solución dentro del espectro es el grado de intervención del operador, es decir, si el proceso de recuperación está parcial o totalmente automatizado. El test para situar soluciones en el espectro está basado en criterios funcionales de "aprobación/rechazo".
Aunque la clasificación en orden de importancia de las soluciones de Alta Disponibilidad se basa en el impacto causado sobre los usuarios prioritarios, existen también otros factores importantes.
Es necesario incluir requerimientos de redundancia en los sistemas de alimentación, ports de Entrada/Salida, CPUs, discos, adaptadores de red y redes físicas. Esta redundancia elimina cualquier punto único de fallo dentro de la plataforma de hardware en cuestión. Si se produce un fallo en el hardware que está ejecutando una aplicación crítica, estará disponible un componente duplicado para garantizar que la aplicación dispone de los recursos necesarios para dicha ejecución.
Hay que proteger a los sistemas mediante salvaguardias ambientales frente a riesgos ambientales que podrían causar perturbaciones a una aplicación crítica. La mayoría de los sistemas actuales incluyen alguna protección frente a sobrevoltajes momentáneos y fallos de corriente cortos, mientras que pueden instalarse sistemas de alimentación ininterrumpida (UPS) para hacer posible el funcionamiento durante un fallo de corriente prolongado. Si la aplicación es muy crítica, pueden utilizarse otras formas de protección.
En una configuración en cluster, se acoplan múltiples sistemas para compartir las cargas y los recursos de proceso, tales como aplicaciones, comunicaciones y/o acceso a los datos. En un sistema en cluster de Alta Disponibilidad, existe cierto número de sistemas o nodos que funcionan independientemente, de forma que cada uno de ellos maneja su propia copia de sistema operativo y las aplicaciones con dos nodos por lo menos tienen acceso a datos compartidos. Si falla un nodo del sistema, otro nodo se hace cargo de los dispositivos de almacenamiento, de la carga de trabajo de los usuarios y de las aplicaciones del nodo que ha fallado. El tiempo improductivo es el tiempo requerido para que el sistema de reserva o backup se haga cargo de la carga de trabajo, de los recursos y de los usuarios del nodo fallido, y para reanudar las posibles aplicaciones interrumpidas.
Los sistemas cluster de Alta Disponibilidad tienen características de disponibilidad diferentes de las de los multiprocesadores simétricos, o SMPs. Si la finalidad de añadir CPUs es aumentar la capacidad de los sistemas para realizar más trabajo, la opción más económica es añadir otro procesador en el mismo backplane (si la plataforma soporta multiprocesadores y no está ya en la máxima capacidad). Sin embargo, esta solución no elimina puntos únicos de fallo. Si un procesador en un sistema SMP falla, fallará también el sistema operativo, y durante la operación de nueva carga o "reboot" del sistema el procesador en fallo quedará fuera de la configuración. Cuando un sistema SMP falla, el trabajo se interrumpe. El procesador adicional permite que la nueva carga del sistema tenga lugar rápidamente.
Si un procesador falla en un cluster que tiene la misma potencia de proceso, el cluster continuará funcionando de todas formas. Actualmente, muchos productos cluster permiten la inclusión de nodos S