Explicación del tema 3
Recuperación de desastres, evaluación del proceso del negocio y administración de riesgos‏
Tema 3. Diseño de planes de continuidad del negocio y recuperación de desastres

3.1 Recursos requeridos

Los recursos requeridos en la elaboración de un plan de continuidad de negocio incluyen el equipo computacional (el cual ya tratamos en el tema anterior), el recurso humano y los datos.

En este punto trataremos la parte del recurso humano. Definiremos el personal que deberá estar involucrado y sus responsabilidades.

Al final de este módulo trataremos la parte de datos. Básicamente hablaremos de los diferentes métodos de respaldo de información.

Asignación de responsabilidades y formación de equipos

Antes de plantear y describir las funciones de los equipos involucrados en el proceso de recuperación de desastres, veamos la siguiente tabla en donde se muestran las responsabilidades de departamentos y personas en un Plan de Continuidad de Negocio.

Departamento Responsabilidad
Alta administración
  • Iniciar el proyecto.
  • Responsables finales.
  • Aprobación y apoyo del proyecto.
Administración Media
  • Identificación y jerarquización de procesos críticos.
Comité BCP
  • Planeación de BCP.
  • Administración operaciones del plan.
  • Implementación y pruebas al BCP.
Unidades funcionales del negocio
  • Implementación y pruebas BCP.
  • Comunicación del plan.
Departamento de Auditoria de IT
  • Revisión de BCP.
  • Evaluación de pruebas del plan.
  • Revisión de:
    • Instalaciones externas.
    • Contratos de procesamiento externo.
    • Coberturas de seguros.

Equipos de Recuperación de desastres

Los siguientes representan los equipos de recuperación de desastres que se pueden formar:

Equipo de respuesta a incidentes: Es el equipo responsable de recibir todos los reportes de incidentes para decidir cuál es la acción correspondiente.

Equipo de acción de emergencias: Representa el primer equipo de respuesta ante un desastre. Su función principal es la de evacuar las instalaciones y tomar las acciones necesarias para salvaguardar la vida del personal.

Equipo de evaluación de daños: Sus funciones principales son las de evaluar los daños, sus causas y estimar el tiempo en que se pueden recuperar las operaciones del negocio.

Equipo de administración de emergencias: Este equipo está formado por ejecutivos y administradores. Serán los responsables de expresar comentarios ante la prensa y el manejo de las relaciones públicas. Es además el equipo responsable de coordinar a todos los demás equipos y responsable de la toma de decisiones claves. Es también el responsable de manejar las finanzas.

Equipo de salvamento: Responsables de la reconstrucción de las instalaciones dañadas. Entre sus actividades se incluyen limpiar las instalaciones, analizar activos destruidos y recuperarlos, llenar las formas de seguros y realizar los trámites legales correspondientes y restaurar los documentos digitales y en papel.

Equipo de comunicaciones: Su responsabilidad principal es la de instalar equipos de comunicaciones (radios, teléfonos, fax, etcétera) en las instalaciones de recuperación alternas.

Equipo de seguridad: Responsables de la administración de seguridad durante la crisis. Deberán coadyuvar a mantener el orden.

Equipo de operaciones de emergencias: Formado por operadores y supervisores familiarizados con las operaciones del negocio. Se ubican en el sitio alterno y operan los sistemas.

Equipo de transporte: Responsables de proporcionar el transporte del personal a las instalaciones de recuperación.

Equipo de coordinación: En caso de existir varias localidades alternas, serán quienes administren el funcionamiento y comunicaciones entre ellas.

Equipo de soporte administrativo: Realizarán las operaciones de soporte necesarias para la administración del negocio como por ejemplo el pago de nóminas y registros contables.

Equipo de abastecimientos: Responsable de las compras de insumos necesarios.

Equipo de relocalización: Serán los responsables al término de la crisis de coordinar el regreso a las instalaciones.

Equipo de Pruebas de recuperación: Responsables de probar el BCP/DRP y determinar su efectividad.

3.2 Componentes del Plan

Dependiendo del tamaño y los requerimientos de la organización, se podrán desarrollar diferentes planes que formen parte del BCP. Entre ellos están:

  • Plan de continuidad de operaciones.
  • Plan de recuperación de desastres.
  • Plan de reanudación del negocio.
  • Plan de soporte de continuidad.
  • Plan de comunicaciones de crisis.
  • Plan de respuesta a incidentes.
  • Plan de transporte.
  • Plan de emergencia de ocupantes.
Estos planes también deben estar protegidos. Se recomienda que se tengan copias de los planes almacenadas en los sitios alternos y en las casas de los responsables de los diferentes equipos de recuperación.

Otro componente es que se elabore una lista de los involucrados en los planes de recuperación de desastres con la información de dónde se pueden localizar, e incluir un directorio telefónico. Este directorio se distribuirá entre los miembros de los equipos de recuperación para su fácil localización.

El plan de recuperación de desastres, adicionalmente a los procesos de recuperación de hardware y software computacional, debe considerar los equipos de telecomunicaciones. En las empresas actuales los equipos de comunicaciones tienen tanta importancia como los equipos de cómputo. La responsabilidad de las comunicaciones recae en las empresas y no en los proveedores de servicios de telecomunicaciones. Por lo tanto, la empresa deberá crear su propio plan para recuperar las comunicaciones en caso de fallas.

Algunos métodos para protección de las redes son:

  • Redundancia. Utilizando capacidad extra. Mediante cableado adicional y equipo duplicado de ruteadores y switches adicionales que sería utilizados en caso de falla.
  • Direccionamiento alternativo. Contar con medios de comunicación alternativos en casos de fallas. Por ejemplo si la información se transmite vía inalámbrica contar con un cableado a utilizar en caso de fallas.
  • Direccionamiento diverso. Instalación duplicada de cables para mantener una vía de comunicación. Por ejemplo la instalación duplicada de cables. Puede ser por el mismo conducto.
  • Diversidad de red de largo alcance. Esta facilidad la proveen las compañías de comunicación de larga distancia. Consiste en un acuerdo entre los diversos proveedores del servicio para en caso de fallas la señal se pueda conmutar entre los diferentes medios de los proveedores.
  • Protección de circuito de “última milla”. Consiste en una combinación de líneas T1, microondas y cableado redundante entre proveedores de servicios locales de comunicación. Similar al de red de largo alcance pero con proveedores locales.
  • Recuperación de voz. Cableado redundante para los servicios de comunicaciones de voz. Puede incluirse el uso de VoIP (Voice over IP) para comunicación de voz por Internet.

Tolerancia de fallas: Este componente se enfoca a la parte de hardware. Existen dos orientaciones básicas en este aspecto. Una de ellas a nivel servidor y la otra a nivel discos. A nivel servidor se utilizan clústeres de computadoras para en caso de que una falle no se pierda la capacidad total de computo. A nivel discos, la tolerancia a fallas se refuerza mediante lo que se llama “Arreglo Redundante de Discos Independientes” (RAID por sus siglas en inglés).

Existen muchos niveles de RAID sin embargo los más usados se presentan en el diagrama siguiente:





Imagen obtenida de: :http://www.vicosoft.org/blog/raid/
Sólo para fines educativos.

Otro componente del BCP son los seguros. El contar con seguros para los equipos de cómputo debe establecerse desde las políticas de la empresa. Las coberturas de los mismos pueden ser muy variables dependiendo del análisis de riesgo y criticidad.

3.3 Pruebas del plan de continuidad y recuperación

La única forma de saber si el plan funciona es llevarlo a cabo. No podemos asegurar el buen funcionamiento de un plan hasta que lo hemos probado. Lo más seguro es que durante las pruebas nos demos cuenta que existen ajustes que debemos realizar. Esta es la forma en que mejoraremos el buen funcionamiento de nuestro plan.

Los métodos de pruebas son muy variados y van desde muy simples hasta extremadamente complejos. Sin importar el método que se use, el objetivo es aprender de la práctica y mejorar el proceso en cada ocasión que se encuentre un problema.

Pruebas de papel: Es el equivalente a una prueba de escritorio. Esto significa que se reúnen los responsables de ejecutar el plan y lo revisan para detectar áreas de oportunidad y analizar que pasaría en caso de un incidente verdadero.

Prueba de preparación: Se realiza un simulacro de una suspensión de algunos de los procesos y sistemas del negocio para evaluar el plan. Es una prueba en etapas.

Prueba operativa total: Se realiza una suspensión total del servicio de sistemas para ejecutar el plan completo de continuidad de negocio.

Mantenimiento del Plan

Lo único constante es el cambio, y por esa razón los BCP deben ser dinámicos. Los planes deben ser actualizados para ajustarse a los cambios en la organización. El mejor plan de BCP puede desactualizarse en 6 meses o menos. Se deberán asignar responsables para llevar a cabo la actualización de los planes de acuerdo a los cambios en el entorno. Una herramienta de software para administrar planes de continuidad puede ser muy útil para dar seguimiento a las tareas de mantenimiento.

Finalmente se deberán establecer controles que garanticen el correcto funcionamiento del plan.

3.4 Respaldos y recuperación de información

Los respaldos de información consisten en guardar una copia de la información en dispositivos secundarios de almacenamiento como cintas o discos duros removibles. Se deberán respaldar datos y programas. Se recomienda que estos respaldos se almacenen en una instalación remota pues en caso de un desastre, por ejemplo un incendio corremos el riesgo que los respaldos sean dañados. Esta instalación remota debe ser tan segura como la instalación principal.

Se deberán realizar respaldos periódicos de la información. La periodicidad de los mismos varía de acuerdo a la aplicación. Por ejemplo en un sistema de contabilidad en donde los archivos se actualizan mensualmente se deberá realizar un respaldo al terminar de procesarlos. Por el contrario en un sistema en línea en donde se registran un gran volumen de información se deberá respaldar al menos cada noche.

Existen varios métodos de rotación de respaldos, el más común es el denominado Abuelo-Padre-Hijo en donde se realizan las copias de respaldo (hijos) diariamente durante una semana. La copia al final de la semana se convierte en el padre. Los medios utilizados durante la semana se reutilizan para almacenar la información en la siguiente semana. Al final del mes la copia final de la semana es almacenada y se le denomina abuelo.

Existen 3 métodos básicos para respaldar información. Entre ellos se podrán realizar diferentes combinaciones. Estos 3 métodos son:

  • Copia completa: Como su nombre lo indica se realiza una copia de todos los archivos y programas.

  • Copia diferencial: Sólo se respaldan los archivos que han sido modificados o creados desde la última copia completa.

  • Copia incremental: Sólo respalda los datos creados o modificaos desde la última copia o respaldo ya sea completo o incremental.

Derechos reservados © TecMilenio, A.C.

Imprimir Imprimir