Lunes por la mañana. El planificador nos avisa de una incidencia rutinaria: uno de los tres sistemas SAI del cuarto de control está en avería. En concreto, el Sistema 1, compuesto por dos equipos redundantes (A y B) acoplados en paralelo y comunicados entre sí. El trabajo es importante, pero no hay pánico; nos confirman que el equipo «B» ha caído, pero el «A» está totalmente operativo y ha asumido el 100% de su carga.
Todo está bajo control. O eso creíamos.
La pareja de oficiales llega a la sala eléctrica, verifica el estado y se dispone a normalizar la redundancia de ese Sistema 1. A través de los menús, e insertando el password de mantenimiento, intentan arrancar el equipo B. No hay respuesta. Ante la sospecha de que la tarjeta de comunicación está bloqueada, toman una decisión lógica: desconectar el cable Ethernet que une ambos equipos para aislar el fallo.
En el milisegundo exacto en que el conector RJ45 sale de su puerto, la sala cambia por completo. Los potentes ventiladores del equipo «A» se paran en seco. Las pantallas de ambos equipos se van a negro.
Acabamos de provocar la peor situación posible en un sistema de alimentaciones críticas: un «0» absoluto de tensión en esa línea.
El corazón se nos sale por la boca. «¡Pepe, mete el bypass manual, que al menos haya tensión de red!». Con los equipos muertos, logramos meter el bypass de mantenimiento a la desesperada para recuperar el suministro.
Esperamos escuchar los gritos de producción entrando por la puerta de la sala eléctrica, pero hay un silencio sepulcral. Corremos a la sala de control esperando ver el caos, pero el panelista está tranquilo. Solo le han saltado un par de alarmas en el SCADA. Todo sigue en marcha.
¿Por qué no se ha parado todo tras nuestro apagón total?
Nos salvó la vida la regla de oro de la alta disponibilidad: la segregación de potencias.
En su día, la ingeniería no cometió el error de colgar toda la carga de un único SAI crítico gigante. Diseñaron una arquitectura con tres sistemas independientes. Pero fueron un paso más allá: separaron físicamente las alimentaciones de las CPUs, las comunicaciones, los drops y la lógica, repartiéndolas bajo una configuración «2 de 3». Aunque nosotros acabábamos de asesinar uno de los sistemas, la lógica seguía alimentada por los otros dos.
Esta es la gran lección para cualquier entorno crítico, desde una planta petroquímica o una central de bombeo, hasta el Data Center de un banco o la sala de servidores de una PYME: dividir la potencia y ganar redundancia segregando cargas aporta infinitamente más seguridad que jugártela a una sola carta con un equipo único, por muy caro que sea.