Резервное копирование (backup) или аварийное восстановление (disaster recovery)? Почему это не одно и то же и как выбрать нужное?
В этой статье мы поговорим о возможных решениях в области защиты данных и обеспечении непрерывности ИТ-сервисов.
Многие организации имеют стратегию резервного копирования, но не имеют стратегии аварийного восстановления. Почему? Ответ прост. Потому что многие ошибочно полагают, что это одно и то же. Что если есть резервная копия, то есть и план аварийного восстановления. Но это не совсем так (а точнее совсем не так). Вот пять причин, почему (backup) и аварийное восстановление (disaster recovery).
1. Уровни сервиса – RPO ( recovery point objectives) и RTO (recovery time objectives).
Разговор о резервном копировании и аварийном восстановлении мы начнем с двух основополагающих терминов: RPO (точки восстановления) и RTO (время восстановления).
RTO. Работающая ИТ система и ее резервная копия- совсем не одно и тоже. Восстановление работоспособного сервиса из резервной копии может занимать от нескольких часов до нескольких дней. Все зависит от способа хранения бэкапа (диск, лента) и сложности сервиса (одно дело — восстановить файлы на файловом сервере, другое — восстановить работу базы данных MS SQL). Время, требуемое на восстановление полноценного сервиса называется RTO (Recovery Time Objective). Насколько критично для вашей организации отсутствие защищаемой информационной системы в течение одного-двух дней? Если не критично, то вам вполне достаточно бэкапа. Если же критично, то ваш выбор решения класса Disaster Recovery.
2. Влияние на приложения: производительность и окно резервного копирования (backup window).
Существует очевидная причина, почему резервное копирование выполняется ночью. В большинстве случаев, процесс бэкапа создает дополнительную существенную нагрузку на сервер, что приводит к деградации сервисов (замедлению работы ваших информационных систем). Если вы хотите уменьшить RPO, вам придется создавать копии чаще, в том числе и в течение рабочего времени. Это скажется на пользователях — они будут жаловаться на замедление системы. Если это важно, то ваше решение – Disaster Recovery.
Также стоит вспомнить о таком понятии, как backup window (окно резервного копирования) — это промежуток времени, в который допустимо выполнять резервное копирование с минимальным влиянием на пользователей системы. Обычно это фиксированный промежуток времени в несколько часов ночью. В это время работа информационных систем останавливается для выполняется полноценного копирования. Однако объем данных растет, вместе с риском не уложиться в отведенный интервал.
3. Автоматизированное восстановление.
Возможность автоматизированного восстановления — вот, пожалуй то, что коренным образом отличает два подхода. В результате работы системы резервного копирования вы получаете копию ваших данных. Результатом же работы системы аварийного восстановления является работающая копия резервируемого сервиса.
Создание среды из резервной копии, особенно из резервной копии с ленты, занимает очень много времени и практически не крайне трудно поддается автоматизации. С решением для аварийного восстановления (таким как VMware Site Recovery Manager) , весь процесс восстановления может быть автоматизирован. Виртуальные машины на защищаемой площадке будут автоматически выключены, а затем запущены на резервной. Автоматизированная реконфигурация сети, включающая при необходимости замену IP адресов и пр., позволит конечным пользователям оперативно получить доступ к приложению и данным на резервной площадке и продолжить работу. Весь этот процесс занимает всего несколько минут.
По сравнению с резервным копированием — это совсем другой уровень сервиса. Кроме того, автоматизация процесса восстановления позволяет избежать ошибок, которые неизбежно возникают по причине человеческого фактора. К автоматизированному восстановлению, добавим возможность тестирования без перерыва сервиса, которая позволяет убедиться, что после сбоя и восстановления, защищаемая система будет работать требуется.
4. Обратная репликация
Как только ваше приложение развернуто на резервной площадке, пользователи начинают его использовать, данные модифицируются и перед вами встают две новые задачи: обеспечить защиту данных на резервной площадке и вернуться на основную площадку по окончании аварийной ситуации. Обычно, системы резервного копирования не способны решить эти задачи. В то же время системы аварийного восстановления легко справляются с ней, т.к. это заложено в их архитектуру.