Cómo sobrevivir a la caída de un servidor

Lenovo

11/11/2015

¡Muy buenas! Soy el Lenovo System x3650 M5 y acabo de empezar a trabajar como empleado de un centro de datos. Entre otras responsabilidades, soy el encargado de predecir y gestionar los tiempos de inactividad imprevistos que afectan a los servidores. Tengo tanta experiencia que he decidido compartir mis conocimientos. Os presento mi kit de supervivencia para caídas de servidor.

Mejor prevenir que curar

Un buen centro de datos que siempre funciona según lo programado es el sueño de todo profesional informático. Sin embargo, no todo el monte es orégano. Hay que estar preparado para lo peor: este es el primer paso para sobrevivir a los tiempos de inactividad imprevistos (y a los lunes).

Empieza a desarrollar un plan de recuperación ante desastres (DRP), que servirá como metrónomo si se produce una crisis. El plan debe contener lo que tiene que hacer cada uno para poner de nuevo en marcha el servidor en caso de que se produzca una caída importante, ya sea debido al fuego, a un ataque distribuido de denegación de servicios (DDoS) o a una metedura de pata de toda la vida. Entre las acciones más importantes está informar al director ejecutivo, evaluar el daño a la infraestructura y calcular el tiempo de recuperación previsto.

Un plan de respuesta cualquiera reducirá la confusión y mantendrá al mínimo las acciones innecesarias en caso de emergencia.

Prepara al equipo

Mucha gente me pregunta: “Lenny, ¿por qué se te da tan bien ser un servidor?” Aparte de mis dotes de nacimiento, es cuestión de práctica. De igual manera, los simulacros de recuperación ante desastres son vitales para prepararse eficientemente para el “gran día”. Haciendo pruebas nos aseguramos de que la plantilla funciona como una máquina bien engrasada, preparada para cuando surjan los problemas. ¿Cuántos equipos deportivos profesionales conoces que se presentan el día del partido sin entrenar y ganen?

Realizar pruebas tiene varios beneficios, como asegurar la validez de los procedimientos de recuperación, verificar la capacidad del personal que lleva a cabo los procedimientos de recuperación, comprobar el tiempo de recuperación previsto, familiarizar al equipo con el plan y descubrir riesgos potenciales.

El DRP se debe revisar al menos una vez al año y se debe poner en práctica una prueba de tipo “esto no es un simulacro”, completa y activa, por lo menos una vez con cada nuevo DRP . Prepara a la tropa para el simulacro, dales la oportunidad de digerir toda la información y pon a su disposición lo necesario para que todo salga bien. Tres, dos, uno, ¡YA!

La comunicación es la clave

Bueno, pues ha ocurrido. El servidor se ha ido a hacer puñetas y no sabes por qué. Lo primero que debes hacer es comunicar a tus usuarios que algo va mal. Resiste la tentación de intentar ocultarlo, porque eso solo tendrá efectos negativos sobre la reputación de tu marca. Si la gente va a perder trabajo, es mejor que se enteren cuanto antes para que empiecen a planificar su respuesta.

Sin embargo, no seas demasiado abierto al comunicar la información. Simplemente reconoce que el servidor está teniendo problemas y que estás trabajando en serio para encontrar una solución. A mí, personalmente, me gusta pedir paciencia. No hay necesidad de ser maleducado. Incluso cuando la caída del servidor sea por causas ajenas a tu control, tienes que disculparte por las molestias. A la gente le gusta saber que no es culpa suya.

Prepárate para improvisar

¿Qué cantidad de personal necesitas para recuperarte de manera eficiente? Ya, claro. ¿Y cuántas gotas de agua hay en el mar? Evaluar correctamente el número de informáticos necesarios en el lugar del desastre depende del tipo de problema, de la hora del día y de la eficiencia de los miembros del equipo que se encuentren in situ. Por eso hay que ser flexible. Yo siempre estoy a favor de pedir a los distintos miembros del equipo que se vayan o se queden, dependiendo de la magnitud del problema, pero asegúrate de cumplir lo previsto en el DRP.

En la universidad fui a clases de improvisación y allí aprendí que es bueno decir que sí a los demás y aportar siempre algo nuevo. Una actitud cerrada y negativa no es plato de buen gusto para nadie.

Sea como sea tu DRP, asegúrate de que tu empresa adopte un punto de vista global ante cualquier interrupción que afecte a un servidor, y de que todo el personal, desde el informático al de desarrollo corporativo, pasando por el de servicio al cliente, haga lo que tiene que hacer.

El Informe Global 2015-2016 sobre fiabilidad del hardware y el SO en servidores de ITIC acaba de nombrar a los servidores x86 de Lenovo los más fiables en este ámbito. ¡Viva yo! Para más información, consulta el www.think-progress.com/es/servidor-lenovo-su-colaborador-mas-fiable o descarga nuestro impresionante libro blanco aquí.

TAMBIÉN LE PUEDE INTERESAR...

La oficina de cara a 2020

Todo lo que necesitan saber las organizaciones del siglo XXI.