Стабильная работа серверов — это основа для функционирования любого современного бизнеса, хотя бы косвенно связанного с IT. Однако даже у многомиллиардных корпораций с новейшим оборудованием периодически случаются сбои в системе. Причин тому может быть множество: от банальной перегрузки серверов до природных катаклизмов и хакерских атак. Что уж говорить о среднем и малом бизнесе.
Чтобы минимизировать простой, а соответственно и потери, существует специальный инструмент Disaster Recovery. Что это такое, в чем его преимущества и как его реализовать — об этом и поговорим.
Disaster Recovery plan — план аварийного восстановления — название полностью отражает суть процесса. Это комплекс действий для чрезвычайных ситуаций. Он включает как технические, так и организационные меры для разных сценариев.
Disaster Recovery — это важный его элемент. Инструмент создан для оперативного реагирования на критические сбои в работе IT-инфраструктуры компании и их устранения. Благодаря использованию DR даже серьезный сбой (например, отказ ЦОДа) не прервет бизнес-процессы надолго.
Самый распространенный вариант реализации такого решения — дублирующая облачная инфраструктура. Многие провайдеры, в том числе Казтелепорт, предлагают своим клиентам облачные мощности для размещения резервной системы. Сервера основной и дублирующей инфраструктур располагаются в разных дата-центрах. Между ними устанавливается канал связи для оперативной синхронизации. Подробнее о таком формате реализации ниже.
В каких ситуациях Disaster Recovery plan поможет минимизировать последствия:
сбой программного обеспечения;
падение серверов;
потеря или повреждение корпоративных данных;
непреднамеренное вредительство — ошибка сотрудника;
преднамеренное вредительство — кибератака;
физическое повреждение оборудования.
Компания, которая решила озаботиться безопасностью своих данных и минимизацией рисков при сбоях, имеет 3 основных способа реализации системы аварийного восстановления:
На базе собственного оборудования — самый ресурсозатратный вариант. Он подразумевает покупку дополнительного оборудования, его установку и настройку. Также необходимо организовать помещение с правильными условиями, стабильным питанием и доступом к сети. Если разместить дублирующую систему в том же здании, где находится основная, это не защитит данные от локальных бедствий. Например, природных катаклизмов.
На базе арендованных физических серверов — решение более выгодное экономически, имеет большую отказоустойчивость. Оно подразумевает аренду серверного оборудования в ЦОДе. Лучше, если он будет находиться в другом городе. В таком случае, ЦОД сможет обеспечивать непрерывность бизнес-процессов, если основная система выйдет из строя по причине масштабного стихийного или антропогенного бедствия. Из минусов можно отметить отсутствие гибкости при масштабировании инфраструктуры.
На базе облачных серверов — самый простой в реализации вариант, к которому приходит большинство современных компаний. Главное преимущество такого решения — легкость масштабирования. При необходимости расширения хранилища, достаточно внести необходимые изменения в настройки. Точно также можно сократить объем и не переплачивать за неиспользуемый ресурс. Провайдер предоставляет облачные мощности, в то время как физические сервера могут находиться в разных городах или даже странах. Следить за состоянием системы можно удаленно, с любого устройства.
Отдельно стоит разобрать реализацию аварийного восстановления в формате Disaster Recovery as a Service. В отличие от простой аренды облачных мощностей, компания получает полный пакет услуг от провайдера с гарантированным доступом к необходимым сервисам.
Основные преимущества такого решения:
наличие инструментов для автоматического аварийного восстановления данных, поддержания работы бизнес-процессов;
возможность тестирования Disaster Recovery plan для разных сценариев, анализа и внесения изменений в протоколы;
репликация критически важной информации в режиме реального времени;
понятный графический интерфейс для управления облачной инфраструктурой;
оптимизация расходов на содержание DR, восстановления инфраструктуры;
сохраняется консистентность данных;
работа с лицензионными программами ведущих разработчиков.
Аварийное восстановление в первую очередь направлено на сокращение времени простоя компании. Вместо того чтобы ждать устранения неполадок основной инфраструктуры, системы переключаются на дублирующую и продолжают выполнять бизнес-процессы.
Почему это важно для IT-компаний:
Специфика работы и услуг, которые предоставляют IT-компании требует непрерывности процессов. Простой — это финансовые и репутационные потери. DR позволяет их избежать.
Защита корпоративных данных — IT-компании часто работают с важной конфиденциальной информацией своих клиентов (физических лиц или других бизнесов). Сбой может привести к утрате этих данных, что повлечет за собой огромные убытки и юридическую ответственность.
Поддержание репутации — оперативное восстановление работы компании после природного или антропогенного бедствия (например, наводнения или пожара в офисе) демонстрирует клиентам ответственный подход компании к своим обязанностям. Это укрепляет доверие, а соответственно и позиции на рынке.
Контроль рисков — полностью избежать сбоев в работе невозможно, но грамотно составленный Disaster Recovery plan позволяет минимизировать их последствия. По сути, он выручает в “непредвиденных ситуациях, которые можно предвидеть”. То есть, если существует даже самая маловероятная угроза, можно разработать алгоритмы для противодействия ей и быть защищенными на 100%.
Оперативное восстановление деятельности после масштабного сбоя позволяет компании обеспечить непрерывность процессов, защитить данные клиентов и оставаться конкурентоспособной.
Бэкапы (резервные копии) — это инструмент, для восстановления работы систем из предварительно созданных копий данных. Многие компании ограничиваются только ими. Однако это нельзя назвать полноценной защитой, это скорее последний рубеж обороны.
В чем принципиальная разница между Disaster Recovery и Backup? Первое решение позволяет продолжать работу компании при помощи дублирующей инфраструктуры, пока идут работы по восстановлению основной. Простой минимальный — иногда пользователи даже не догадываются о произошедшем сбое.
Второе – позволяет сохранить данные, но не обеспечивает отказоустойчивость. То есть, пока сбой не будет полностью устранен, система не сможет функционировать. Кроме того, есть риск потери краткосрочных данных.
Аспект |
Disaster Recovery |
Backup |
Определение |
Это комплексный план восстановления после бедствия (сбоя), включающий в себя технологические и организационные решения. Позволяет сохранить непрерывность бизнес-процессов во время сбоя. |
Это процесс регулярного копирования данных для их последующего восстановления после починки основной инфраструктуры или переноса в новую. |
Надежность |
Высокая, так как DR включает множество стратегий для разных ситуаций и степеней риска. |
Относительно надежен, но не всегда способен обеспечить быстрое восстановление работоспособности систем после происшествия. |
Скорость восстановления работоспособности компании |
Высокая (вплоть до нескольких секунд). |
Зависит от объема данных, типа резервных копий и скорости восстановления IT-инфраструктуры. |
Предназначение |
Для серьезных бедствий и системных сбоев. Поддерживает стабильную работу процессов. |
Оптимален для случаев случайного удаления данных, повреждения файлов. |
Ресурсоемкость |
Требует инфраструктуры (или ее элементов) аналогичной основной. |
Достаточно дополнительных жестких дисков или облачного пространства. |
Disaster Recovery имеет два главных параметра, которые определяют ее эффективность. А именно на отказоустойчивость и размер ущерба, который нанесет непредвиденная ситуация. Это RTO и RPO.
Recovery Time Objective — параметр, который определяет максимально допустимое время восстановления работоспособности систем. То есть, как быстро компания возобновит работу в штатном режиме. Он может составлять как несколько секунд, так и несколько часов.
Продолжительность этого временного отрезка зависит от масштаба и специфики бизнеса. Например, для финансовых учреждений даже несколько минут принесут серьезные потери (низкий RTO), а для небольшого онлайн-магазина 3–4 часа не станут существенной проблемой (средний/высокий RTO).
Recovery Point Objective — параметр, определяющий максимально допустимую потерю данных в результате непредвиденной ситуации. А именно, за какой временной промежуток до инцидента. По сути, это частота обновления резервной копии. Если установлен RPO 5 минут, то компания рискует потерять данные, которые поступили или обрабатывались не более чем за 5 минут до происшествия.
Достичь оптимальных параметров RTO и RPO без больших финансовых и ресурсных затрат можно при помощи DRaaS, о котором мы говорили ранее. Специализированное ПО самостоятельно проведет репликацию процессов в дублирующую инфраструктуру, в то время как сисадмины и техники смогут оперативно заняться устранением поломок в локальной системе.
Наша компания предоставляет резервную площадку для размещения виртуальной IT-инфраструктуры клиента. В случае отказа локальных серверов, система будет реплицирована и запущена на облачных серверах Казтелепорт. Также услуга включает:
удобную авторизацию;
выделенную VLAN;
восстановление работы сервисов на оборудовании компании с синхронизацией текущих процессов.
Наши ЦОД находятся в 3 крупных городах Казахстана: Астане, Алматы и Актау. Получить бесплатную консультацию и оформить заявку на DRaaS можно на нашем сайте.