ГородКиев
Язык сайта
Укр
Рус
Войти в кабинет
Каталог товаров
Пассивное сетевое оборудование
Активное сетевое оборудование
Оптические компоненты
Короб, лотки, гофра, инструмент
Электропитание, электрика

Почему отключается питание в серверных стойках и как это предотвратить

19 апреля 2022

 

Отключение питания в серверной стойке — это серьезно. Решать такой инцидент нужно как можно быстрее. И хотя обычно в дата-центре самое важное оборудование имеет два источника питания, постоянный и резервный, иногда это не помогает. Из-за ошибок может «упасть» вся стойка. Как избежать большинства причин «падения» стойки, читайте в статье. В ней рассказано, как справляться с классическими случаями прекращения питания, как избежать технических причин и устранять проблемы, связанные с человеческим фактором.

Почему отключается питание в серверных стойках и как это предотвратить - фото

 

Распространенные ошибки с блоками питания и как их решить

 

Сбои электроснабжения почти всегда случаются из-за блоков питания. Особенно если это недорогое оборудование. И даже при запланированных работах, когда электропитание необходимо отключать, БП может сгореть из-за перепада напряжения. При этом сгоревший блок может привести к тому, что сработают автоматы в PDU и щитке, разве что стойка оснащена продвинутым PDU. Короткое замыкание — еще одна классическая причина.

Чтобы устранить сбой в телекоммуникационной стойке, можно действовать по такому алгоритму:

  • Визуальный осмотр. Нужно посмотреть, не идет ли дым, запах гари от компонентов. В первую очередь стоит осмотреть PDU и БП.
  • Осмотреть автоматический ввод резерва, а также проверить журнал событий на PDU и АВР.
  • Убедиться в том, надежно ли подключены кабели питания, соединение разъемов питание по типу «груша», а также заземление.
Совет: на всех трех этапах проверить нагрев всей линии, используя тепловизор.
  • Проверить автоматы в распределительном щитке.
  • Проверить нагрузку на автомате.
  • Протестировать автомат посредством тепловизора.
  • При условии, что ситуация неострая, а питание выключилось из-за того, что сработал автомат, его нужно включить. Если питание в стойке восстановилось, следует поискать БП, который сгорел и заменить его. Обнаружить испорченный блок нетрудно: его индикатор не будет светиться.
  • Все этапы диагностики необходимо зафиксировать в чек-листе, чтобы выяснить причины сбоя.
  • Если включенный автомат тут же выбивает еще раз, причины сбоя гораздо серьезнее. В этом случае надо снять с PDU всю нагрузку и провести диагностику каждого БП по очереди.
  • Случается, что причина отключения или же короткого замыкания сразу непонятна. Здесь пригодится специальный портативный анализатор. Этот прибор для диагностики сети можно подсоединить к вышедшей из строя PDU на сутки, а потом собрать за это время журнал и найти причину неполадки.

 

Как решить

 

Чтобы избежать вышеприведенных ситуаций с БП, нужно помнить о необходимости запасных блоков питания. Это поможет быстро устранить сбой и тем самым сократить время простоя.

Также важно не перегружать блоки: они должны работать на номинальной мощности. Удобны БП, оснащенные защитой от перегруза.

Кроме того, необходимо проверять, правильно ли используются все элементы стойки. Дело в том, что нельзя перегружать любое оборудование в стойке. Ведь если хоть один элемент перегружен, может упасть сервер.

Все это звучит просто, пока не попадется нестандартное оборудование. Например, бывают серверы с парой БП, где один подает питание, а второй — в горячем резерве. Подобные настройки могут быть установлены в БИОСе. На практике это означает, что вся нагрузка ляжет только на одну PDU.

Отметим, что БП может сгореть из-за скрытых дефектов. И если есть повод подозревать заводской брак, понадобится провести экспертизу в центре по ремонту.

 

Человеческий фактор

 

Конечно, поломки, связанные с человеческим фактором, не означают некомпетентности сотрудников, и уж тем более не означают злого умысла. Ошибки, связанные с этим, часто происходят из-за недопонимания. К примеру, человек может просто неправильно запомнить номер стойки, с которой нужно поработать, что-то не так услышать.

 

Как этого избежать:

 

  • Заявки на отключение принимать только от уполномоченных сотрудников и только в письменном виде, например, на электронную почту. Это же касается и передачи заявки на исполнение.
  • Проверять, что заявка подана в рамках договора и услуг, которые оказывает ваша команда.
  • Планировать работы, связанные с отключением, только в рабочее время: вечером или ночью этого делать не стоит, поскольку мастер может быть усталым и потерять концентрацию.
  • Сложные работы проводить только вдвоем. В идеале при работе со щитом должен присутствовать старший инженер.
  • Отключать автоматы по очереди. Так, если нужно отключить стойку полностью, необходимо выключить сначала один автомат, посмотреть, отключена ли нужная PDU. И только потом выключать еще 1 автомат.
  • Маркировать каждый узел подключения: как разъемы питания для подсоединения PDU, так и собственно PDU.
  • Прокладывать цветные кабели (пригодится для маркировки).
  • Соблюдать цветовую схему на протяжении всей линии.
  • Рассказывать заказчикам о том, как правильно устанавливать компоненты в стойку.
  • Мастер должен придерживать открытую защитную панель щитка, если такая есть. Это необходимо, чтобы пластрон не упал и не отключил другие автоматы.
 

Важно! Маркировка проводников может выполняться по разным схемам. По этой причине рекомендуется заранее договариваться о том, какую маркировку вы будете использовать, и указать ее в документации дата-центра. Кроме того, необходимо маркировать автомат, особенно в случаях его горизонтальной установки.

 

Из-за чего «падают» стойки: технические ошибки и их решение

 

Одна из самых частых таких причин — статическое электричество, губительное для электроники. Из-за этого в каждом ЦОДе должен быть определенный климат, а также использоваться антистатические фальшполы, упаковки и прочее.

Однако если в крупных дата-центрах все устроено, как положено, в небольших серверных комнатах следить за показателями влажности сложнее. В таких ситуациях рекомендуется носить антистатические браслеты: статика в небольших количествах нестрашна стойке, но при обслуживании человек может давать разряд, который может испортить компоненты.

Еще одна техническая причина — шнуры низкого качества. Не рекомендуется экономить на кабелях питания оборудования. Со временем тонкие шнуры низкого качества прогорают, поскольку просто не выдерживают такой нагрузки. Локализовать стойку со сгоревшим кабелем, особенно если в помещении их много, бывает трудно. Так что лучше заранее не скупиться и брать хороший провод.

Обычно в стойках подключают все с помощью кабелей С13 и С14. Они отличаются сечением. Лучший вариант для ЦОДа — модели с показателем хотя бы 1 мм2.

Помимо этого, технической неполадкой, ведущей к проблемам с питанием стойки, является то, что сетевое оборудование просто неаккуратно поставили. Из-за этого иногда шнур питания вставляют в разъем не до конца, что ухудшает проводимость, а также увеличивает показатели сопротивления. А если провод еще часто задевают, то соединение греется сильнее, чем необходимо. Это пожароопасная ситуация, а значит автомат скоро сработает и выключит стойку.

Если серверная комната небольшая, можно порекомендовать использовать разъемы и кабели от одного производителя, однако в крупных коммерческих ЦОДах это вряд ли получится. Но можно использовать специальную накладку из силикона, которая выполняет функцию уплотнителя.

Необходимо помнить! Показатель допустимой силы тока меняется, если задействованы адаптеры для кабелей.

Еще одна причина — жара. Оптимальный климат необходим не только для корректной работы серверов, но и для автоматов. Так, выключатель с показателем в 25 А при температуре свыше 30 градусов может выдавать всего 23 А. Это означает, что если в комнате жарко, то он выключится раньше. Решение — учитывать место расположения щита и следить за климатом.

Примечание: бывают необъяснимые сбои, для выявления причин которых вешают переносной анализатор. Он поможет определить причину при повторном сбое. Однако такого случая можно и не дождаться, так что лучше использовать постоянный анализатор качества питания, который позволяет определить причину проблемы в тот же момент, когда случается сбой. Таким прибором рекомендуется оснащать лучи после всех ИБП.

Подведем итоги. Избежать выхода стоек из строя можно, принимая различные меры. Так, важно не экономить на оборудовании и кабелях, устанавливать резервные БП и избегать перегрузок, а также рассчитывать оптимальную нагрузку с учетом аварийного режима. Кроме того, стоит проверять правильность подключения, наносить маркировку. Не менее важно защитить оборудование от разрядов статики.

Кроме того, стоит тщательно фиксировать все договоренности в письменном виде, планировать все важные работы днем и вместе с напарником. И прежде чем вводить стойку в эксплуатацию, важно тестировать ее под нагрузкой. Кстати, можно привлечь к тестированию специалистов ЦОД: пусть они по очереди отключат автоматы и проверят, правильно ли работает оборудование.

Не менее важно составлять отчеты: вести статистику сбоев, определять типичные ошибки и фиксировать их в инструкциях.