¿Por qué considerar un Plan de Recuperación de Desastres (DRP) en tu organización?

Un desastre en las soluciones de Software se entiende por un error que afecta la operación regular del sistema. Los desastres pueden surgir de diferentes eventos como: desastres naturales, robots, errores humanos, fallas en el suministro eléctrico, errores en el sistema, virus, hackers, entre otros. Un Plan de Recuperación de Desastres te puede proteger ante estos eventos inesperados, que inevitablemente sucederán, lo que no sabes es cuando.

Ventajas de incluir en tu empresa un DRP

  • Reduce el impacto inherente al negocio, entre ellos el costo de no prestar servicio.
  • Minimiza la pérdida de datos ante eventos que salen de tu control.
  • Ejecuta la restauración de aplicaciones críticas.
  • Mitiga el riesgo (caracterizado en diferentes formas)
  • Recupera la operación habitual en el menor tiempo posible.

El DRP te permite reaccionar, determinar las prioridades y aclarar cómo se va a mitigar el daño que implicó el desastre.

Hay algunos conceptos base que es necesario que entiendas para empezar a organizar tu DRP. El primer concepto es el Recovery Point Objetive o Objetivo de Punto de Recuperación, este es el último punto que podemos tolerar para realizar la restauración de los datos. El segundo concepto es el Recovery Time Objetive o Objetivo de Punto de Recuperación, que se refiere al tiempo máximo que nos debe llevar recuperar la carga de trabajo afectada.

Estrategias que puedes implementar para un DRP exitoso

  • Backup & Restore

Se enfoca principalmente en mitigar el impacto de pérdida o corrupción de datos. En la Nube de AWS también se enfoca en los desastres asociados a escenarios regionales. En esta estrategia los pasos a seguir son establecer políticas y mecanismos de generación de backup de la información que se necesita restaurar ante un evento de desastre.

  • Pilot Light

Funciona como replicación de una porción de los servicios principales hacia la región réplica, manteniendo los demás servicios de la región réplica en estado de espera y con una versión más pequeña.

  • Warm Standby

Estrategia diseñada para mantener en ejecución todos los servicios desplegados en la región de recuperación con una menor capacidad. Warm Standby, a diferencia del Backup & Restore y del Pilot Light, tiene una versión más pequeña de los mismos recursos productivos en una región de recuperación.

  • Multi Site Activo-Activo

Plantea una réplica completa de tu ambiente en una región secundaria ¿Qué significa? que el tráfico puede ser dirigido a cualquiera de las dos regiones de manera indistinta y la carga de trabajo va a funcionar.

Alta Disponibilidad no es Recuperación de Desastres

En todos los escenarios donde hay replicación de datos de manera instantánea, sirven para escenarios de eventos de fallos que no sean humanos. Una replicación de base de datos te protege cuando falla el servidor, cuando falla la región, la energía o la conectividad de la región principal pero NO TE PROTEGE DE UN USUARIO QUE POR ERROR BORRA LOS DATOS o un actor malicioso que los elimine. Por ello, el Backup o puntos de recuperación en el tiempo, es una estrategia fundamental que se debe implementar para los datos que no puedes generar. Es la única forma que se tiene para recuperarlos en los escenarios de desastre: por factor humano o por ataques.

El backup es necesario siempre, independientemente de la estrategia de recuperación que se implemente. 

Lo que debes tener en cuenta al crear un Plan de Recuperación de Desastres (DRP)

  1. Entender el impacto de la implementación actual para viabilizar la habilitación de un esquema de DRP. Para poder recomendar o sugerir una estrategia de recuperación ante desastres es clave entender qué es lo que tienes hoy en día desplegado en la Nube. Importante entenderlo a fondo para ver cuáles son los esquemas viables.
  2. Identificar la criticidad de las cargas de trabajo
  3. Definir los Objetivos de Tiempo y Punto de Recuperación (RTO-RPO) para cada carga de trabajo. Estos tiempos no necesariamente son los mismos.
  4. Determinar la mejor estrategia en cada caso. Basados en ese RTO y RPO saber cuál es la mejor estrategia para cada caso.
  5. Entender el impacto en el consumo de una u otra estrategia de recuperación.  
  6. Pon a prueba tu Plan de Recuperación de Desastres simulando un escenario inesperado. Es importante probarlo con alguna periodicidad para comprobar varias cosas:
  • Efectividad del plan
  • Cumplimiento del RTO/RPO
  • Capacidad del equipo operativo a cargo de las actividades
  • Encontrar errores o ítems que se hayan omitido o pasado por alto durante la construcción del plan

Si quieres conocer más sobre las ventajas y desventajas de cada estrategia para tu Plan de Recuperación de Desastres y además, comprender cuáles son los servicios o herramientas de AWS que podrías implementar, te invitamos a ver el webinar de Estrategias de Recuperación de Desastres con AWS;