Падение сервера случается нечасто, но эта проблема всегда доставляет массу проблем и неудобств не только системному администратору и IT-специалистам компании, но и всему персоналу, кто так или иначе использует корпоративную информационную инфраструктуру.
Результатом непредвиденной остановки аппаратных мощностей может стать не только утечка критически важной конфиденциальной информации, но и простой в работе, который может повлечь за собой существенные финансовые убытки, потерю клиентов и дорогостоящих заказов.
Чтобы этого не произошло, нужно в кратчайшие сроки установить причину неполадок, после чего приступить к восстановлению. Простой перезапуск далеко не всегда дает нужный результат. Без обнаружения основной причины, сбой в работе сервера может произойти вновь через короткий промежуток времени.
Далее в материале рассмотрим основные причины таких неисправностей и методы борьбы с ними.
Перед тем как поговорить об основных причинах неисправности аппаратного вычислительного оборудования, нужно определить, что имеется в виду под падением сервера. На сленге сетевых администраторов и работников IT-отдела любой компании это означает полный или частичный выход из строя сервера, что влечет за собой потерю доступа к важной корпоративной информации, хранящейся на нем.
Частичным решением данной проблемы является полная перезагрузка оборудования. Иногда, это может помочь восстановить доступ на некоторое время. Но если причина серьезная, то даже полная перезагрузка не позволит возобновить штатное функционирование.
Синий “экран смерти” на операционной системе Windows (до Win 10 включительно)
На практике можно обнаружить множество причин, по которым сетевое оборудование может перестать правильно работать или полностью отключиться, начиная с проблем с энергоснабжением и аппаратных неисправностей, заканчивая человеческим фактором. Но чаще всего сетевые и вычислительные устройства начинают функционировать неправильно или выходят из строя из-за ненадлежащего отношения IT-специалистов к выполнению своих обязанностей или из-за желания акционера/владельца бизнеса сэкономить на IT-инфраструктуре, что приводит к покупке некачественных или устаревших электронных устройств обработки информации.
Чтобы разобраться, как избежать падения сервера, рассмотрим основные причины возникновения возможных неисправностей:
Проблемы с электроснабжением и питанием. Если в электрической сети, от которой запитывается сетевое оборудование, не установлены стабилизаторы напряжения и бесперебойники, то отключение электричества или скачки напряжения могут стать причиной выхода из строя блока питания сервера. Кроме того, часто к такому исходу приводит экономия на покупке качественного блока питания.
Несоблюдение температурного режима в дата-центре. Современная вычислительная техника в процессе работы во время высоких нагрузок выделяет большое количество тепла, которое необходимо эффективно отводить.
Одна из схем терморегуляции в дата-центре
Для бесперебойной работы электронно-вычислительной техники рекомендуется поддерживать в помещении температуру от 18 до 22 градусов по шкале Цельсия. При более высоких температурах повышается риск некорректной работы процессора, памяти и жестких дисков, что может привести к зависанию операционной системы либо полному отказу сервера.
Физические повреждения. Как правило, электронно-вычислительная техника устанавливается в дата-центрах или отдельных помещениях на специальных стойках, которые монтируются на фальшполах. Под фальшполами часто прокладывают кабельные линии и воздуховоды для подачи холодного воздуха из кондиционеров или фильтров. Если при монтаже были допущены какие-либо ошибки, то сервера могут получить физические повреждения от падения.
Использование обыкновенного персонального компьютера или ноутбука вместо специального серверного оборудования.
Использование ноутбука в качестве сервера
Часто в целях экономии предприниматели предпочитают использовать обычные ПК вместо серверных компьютеров. Проблема в том, что персональные машины и ноутбуки не обладают достаточной мощностью для обслуживания запросов средних и крупных сетей. Поэтому часто наблюдается зависание корпоративных программ и операционных систем, что в конечном итоге может привести к полному падению сервера.
Отсутствие в системе электроснабжения блока ABP. Автоматический ввод резерва позволяет подключать оборудование сразу к двум сетям электроснабжения. Такая схема подключения позволяет автоматически переключаться между линиями, если в одной из них пропадает напряжение. При отсутствии ABP и в случае с перебоями электричества может упасть не только сервер, но и все сетевое оборудование, включая коммутаторы, маршрутизаторы и пр.
От выхода из строя любой техники, даже новой и качественной, не застрахован никто. Это может случится по рассмотренным выше причинам или, например, в случае бракованных комплектующих. Рассмотрим технические поломки, которые чаще всего случаются в процессе эксплуатации сетевого оборудования.
Перегорание проводки. Если сотрудник компании обнаружил, что упал сервер, он не отвечает на запросы и не реагирует на нажатие кнопки питания, то в первую очередь следует проверить розетки на наличие напряжения. Часто, в целях экономии, в дата-центрах используют некачественные провода, которые при скачках напряжения могут попросту перегореть. Найти перегоревший провод бывает очень непросто, так как в серверных комнатах их могут быть сотни.
Неисправность жесткого диска. Несмотря на то, что в серверах все чаще вместо жестких дисков используются твердотельные накопители SSD, которые обеспечивают более высокую скорость загрузки, HDD еще можно встретить довольно часто. Как правило, срок эксплуатации серверных винчестеров не превышает 4 лет, тем не менее они продолжают работать и выполнять свои функции. Но внезапно может случится, что жесткий диск перестанет работать, и это вызовет существенные неудобства. Поэтому лучше вовремя производить его замену.
Износ аккумуляторных батарей. При правильном проектировании системы энергоснабжения серверной, в ней обязательно должны быть предусмотрены бесперебойники — устройства, которые позволяют продолжить работу сервера в случае внезапного отключения питания. Основу их конструкции составляют аккумуляторные батареи, емкости которых хватает на время, пока не будет восстановлен основной источник энергии. Аккумуляторы при длительной эксплуатации теряют свою емкость и могут выходить из строя, что может стать причиной внезапного отключения сетевого оборудования. Поэтому нужно постоянно анализировать состояние батарей, ведь заменить их не составляет труда, а разбираться с последствиями падения сервера можно очень долгое время.
Превышение максимально допустимой нагрузки на АВР.
Необходимо обратить внимание, что максимальное потребление электрической энергии происходит во время включения или перезагрузки сервера. Кроме того, имеет место существенный скачок потребления мощности. Если блок автоматического ввода резерва нагружен не критически, то это никак не скажется на его работоспособности. Однако, если нагрузка на АВР составляет более 75% в штатном режиме, то существенно увеличивается вероятность его выхода из строя. Поэтому при проектировании системы энергоснабжения необходимо учитывать, чтобы критической мощности АВР было достаточно для работы всего сетевого оборудования.
Исходя их вышесказанного, первое, что необходимо сделать в случае выхода из строя серверного оборудования — это установить причину. Только после установления причины необходимо приступать к программному или аппаратному ремонту.
Однако, намного эффективнее предотвратить возможные негативные последствия, чем с ними бороться уже по факту происшествия.
В данном материале были рассмотрены основные способы избежать падения сервера. Это необходимый и достаточный минимум для того, чтобы обезопасить корпоративную инфраструктуру и бизнес в целом от возможного ущерба при возникновении непредвиденных ситуаций.