Стабильная работа серверов — это основа для функционирования любого современного бизнеса, хотя бы косвенно связанного с IT. Однако даже у многомиллиардных корпораций с новейшим оборудованием периодически случаются сбои в системе. Причин тому может быть множество: от банальной перегрузки серверов до природных катаклизмов и хакерских атак. Что уж говорить о среднем и малом бизнесе.

Чтобы минимизировать простой, а соответственно и потери, существует специальный инструмент Disaster Recovery. Что это такое, в чем его преимущества и как его реализовать — об этом и поговорим.

Disaster Recovery это

Disaster Recovery plan — план аварийного восстановления — название полностью отражает суть процесса. Это комплекс действий для чрезвычайных ситуаций. Он включает как технические, так и организационные меры для разных сценариев.

Disaster Recovery — это важный его элемент. Инструмент создан для оперативного реагирования на критические сбои в работе IT-инфраструктуры компании и их устранения. Благодаря использованию DR даже серьезный сбой (например, отказ ЦОДа) не прервет бизнес-процессы надолго.

Самый распространенный вариант реализации такого решения — дублирующая облачная инфраструктура. Многие провайдеры, в том числе Казтелепорт, предлагают своим клиентам облачные мощности для размещения резервной системы. Сервера основной и дублирующей инфраструктур располагаются в разных дата-центрах. Между ними устанавливается канал связи для оперативной синхронизации. Подробнее о таком формате реализации ниже.

В каких ситуациях Disaster Recovery plan поможет минимизировать последствия:

сбой программного обеспечения;
падение серверов;
потеря или повреждение корпоративных данных;
непреднамеренное вредительство — ошибка сотрудника;
преднамеренное вредительство — кибератака;
физическое повреждение оборудования.

Способы реализации Disaster Recovery

Компания, которая решила озаботиться безопасностью своих данных и минимизацией рисков при сбоях, имеет 3 основных способа реализации системы аварийного восстановления:

На базе собственного оборудования — самый ресурсозатратный вариант. Он подразумевает покупку дополнительного оборудования, его установку и настройку. Также необходимо организовать помещение с правильными условиями, стабильным питанием и доступом к сети. Если разместить дублирующую систему в том же здании, где находится основная, это не защитит данные от локальных бедствий. Например, природных катаклизмов.
На базе арендованных физических серверов — решение более выгодное экономически, имеет большую отказоустойчивость. Оно подразумевает аренду серверного оборудования в ЦОДе. Лучше, если он будет находиться в другом городе. В таком случае, ЦОД сможет обеспечивать непрерывность бизнес-процессов, если основная система выйдет из строя по причине масштабного стихийного или антропогенного бедствия. Из минусов можно отметить отсутствие гибкости при масштабировании инфраструктуры.
На базе облачных серверов — самый простой в реализации вариант, к которому приходит большинство современных компаний. Главное преимущество такого решения — легкость масштабирования. При необходимости расширения хранилища, достаточно внести необходимые изменения в настройки. Точно также можно сократить объем и не переплачивать за неиспользуемый ресурс. Провайдер предоставляет облачные мощности, в то время как физические сервера могут находиться в разных городах или даже странах. Следить за состоянием системы можно удаленно, с любого устройства.

DRaaS — оптимальное решение?

Отдельно стоит разобрать реализацию аварийного восстановления в формате Disaster Recovery as a Service. В отличие от простой аренды облачных мощностей, компания получает полный пакет услуг от провайдера с гарантированным доступом к необходимым сервисам.

Основные преимущества такого решения:

наличие инструментов для автоматического аварийного восстановления данных, поддержания работы бизнес-процессов;
возможность тестирования Disaster Recovery plan для разных сценариев, анализа и внесения изменений в протоколы;
репликация критически важной информации в режиме реального времени;
понятный графический интерфейс для управления облачной инфраструктурой;
оптимизация расходов на содержание DR, восстановления инфраструктуры;
сохраняется консистентность данных;
работа с лицензионными программами ведущих разработчиков.

Почему Disaster Recovery это важно?

Аварийное восстановление в первую очередь направлено на сокращение времени простоя компании. Вместо того чтобы ждать устранения неполадок основной инфраструктуры, системы переключаются на дублирующую и продолжают выполнять бизнес-процессы.

Почему это важно для IT-компаний:

Специфика работы и услуг, которые предоставляют IT-компании требует непрерывности процессов. Простой — это финансовые и репутационные потери. DR позволяет их избежать.
Защита корпоративных данных — IT-компании часто работают с важной конфиденциальной информацией своих клиентов (физических лиц или других бизнесов). Сбой может привести к утрате этих данных, что повлечет за собой огромные убытки и юридическую ответственность.
Поддержание репутации — оперативное восстановление работы компании после природного или антропогенного бедствия (например, наводнения или пожара в офисе) демонстрирует клиентам ответственный подход компании к своим обязанностям. Это укрепляет доверие, а соответственно и позиции на рынке.
Контроль рисков — полностью избежать сбоев в работе невозможно, но грамотно составленный Disaster Recovery plan позволяет минимизировать их последствия. По сути, он выручает в “непредвиденных ситуациях, которые можно предвидеть”. То есть, если существует даже самая маловероятная угроза, можно разработать алгоритмы для противодействия ей и быть защищенными на 100%.

Оперативное восстановление деятельности после масштабного сбоя позволяет компании обеспечить непрерывность процессов, защитить данные клиентов и оставаться конкурентоспособной.

А как же бэкапы? Их недостаточно?

Бэкапы (резервные копии) — это инструмент, для восстановления работы систем из предварительно созданных копий данных. Многие компании ограничиваются только ими. Однако это нельзя назвать полноценной защитой, это скорее последний рубеж обороны.

В чем принципиальная разница между Disaster Recovery и Backup? Первое решение позволяет продолжать работу компании при помощи дублирующей инфраструктуры, пока идут работы по восстановлению основной. Простой минимальный — иногда пользователи даже не догадываются о произошедшем сбое.

Второе – позволяет сохранить данные, но не обеспечивает отказоустойчивость. То есть, пока сбой не будет полностью устранен, система не сможет функционировать. Кроме того, есть риск потери краткосрочных данных.

Сравнение Disaster Recovery и Backup

Аспект	Disaster Recovery	Backup
Определение	Это комплексный план восстановления после бедствия (сбоя), включающий в себя технологические и организационные решения. Позволяет сохранить непрерывность бизнес-процессов во время сбоя.	Это процесс регулярного копирования данных для их последующего восстановления после починки основной инфраструктуры или переноса в новую.
Надежность	Высокая, так как DR включает множество стратегий для разных ситуаций и степеней риска.	Относительно надежен, но не всегда способен обеспечить быстрое восстановление работоспособности систем после происшествия.
Скорость восстановления работоспособности компании	Высокая (вплоть до нескольких секунд).	Зависит от объема данных, типа резервных копий и скорости восстановления IT-инфраструктуры.
Предназначение	Для серьезных бедствий и системных сбоев. Поддерживает стабильную работу процессов.	Оптимален для случаев случайного удаления данных, повреждения файлов.
Ресурсоемкость	Требует инфраструктуры (или ее элементов) аналогичной основной.	Достаточно дополнительных жестких дисков или облачного пространства.

Основные параметры системы аварийного восстановления

Disaster Recovery имеет два главных параметра, которые определяют ее эффективность. А именно на отказоустойчивость и размер ущерба, который нанесет непредвиденная ситуация. Это RTO и RPO.

RTO

Recovery Time Objective — параметр, который определяет максимально допустимое время восстановления работоспособности систем. То есть, как быстро компания возобновит работу в штатном режиме. Он может составлять как несколько секунд, так и несколько часов.

Продолжительность этого временного отрезка зависит от масштаба и специфики бизнеса. Например, для финансовых учреждений даже несколько минут принесут серьезные потери (низкий RTO), а для небольшого онлайн-магазина 3–4 часа не станут существенной проблемой (средний/высокий RTO).

RPO

Recovery Point Objective — параметр, определяющий максимально допустимую потерю данных в результате непредвиденной ситуации. А именно, за какой временной промежуток до инцидента. По сути, это частота обновления резервной копии. Если установлен RPO 5 минут, то компания рискует потерять данные, которые поступили или обрабатывались не более чем за 5 минут до происшествия.

Достичь оптимальных параметров RTO и RPO без больших финансовых и ресурсных затрат можно при помощи DRaaS, о котором мы говорили ранее. Специализированное ПО самостоятельно проведет репликацию процессов в дублирующую инфраструктуру, в то время как сисадмины и техники смогут оперативно заняться устранением поломок в локальной системе.

DRaaS от Казтелепорт

Наша компания предоставляет резервную площадку для размещения виртуальной IT-инфраструктуры клиента. В случае отказа локальных серверов, система будет реплицирована и запущена на облачных серверах Казтелепорт. Также услуга включает:

удобную авторизацию;
выделенную VLAN;
восстановление работы сервисов на оборудовании компании с синхронизацией текущих процессов.

Наши ЦОД находятся в 3 крупных городах Казахстана: Астане, Алматы и Актау. Получить бесплатную консультацию и оформить заявку на DRaaS можно на нашем сайте.