Как уроки, извлеченные из инцидента в нашем центре обработки данных в Нюрнберге в сентябре 2024 года, помогли нам предотвратить подобную ситуацию в октябре. Что случилось? 9 октября 2024 года наш центр обработки данных в Нюрнберге на короткое время остался без питания от общественной сети. В 18:52 наш источник бесперебойного питания (ИБП) обнаружил отключение питания и взял на себя управление, чтобы обеспечить бесперебойную работу всех серверов и сетевых устройств. Отключение питания также повлияло на нашу систему охлаждения. После того, как питание вернулось через несколько секунд, не все элементы системы охлаждения автоматически вернулись в режим онлайн. Один из шести насосов системы охлаждения застрял в режиме ошибки. Сработала сигнализация, и техник центра обработки данных поспешил устранить проблему. Насос требовал ручного сброса. Мы выполнили сброс до того, как повышенная температура повлияла на какие-либо серверы внутри центра обработки данных. В целом, нам потребовалось менее 60 минут, чтобы расследовать, минимизировать последствия и разрешить инцидент. Это стало возможным благодаря урокам, извлеченным из сентябрьского инцидента в том же центре обработки данных. Благодаря новым процедурам наша выездная команда смогла быстро определить пострадавшее устройство и вручную перезагрузить охлаждающий насос, не прибегая к внешней поддержке. Хронология события 18:52: ИБП обнаружил отключение электроэнергии, все серверы остаются в сети19:24: Внутренние тревоги, вызванные невозможностью перезапустить систему охлаждения после отключения электроэнергии 19:30: Технический специалист центра обработки данных начал расследование20:14: Технический специалист центра обработки данных определил, что один из насосов охлаждения застрял в режиме сброса. Технический специалист центра обработки данных вручную сбросил насос и вернул его в рабочий режим.20:15: Инцидент исчерпан, пострадавших клиентов нет Никакого влияния на миграцию в центральный офис в Европе Это не меняет нашего обязательства бесплатно перенести все серверы из Нюрнберга в наш центр обработки данных Hub Europe для всех клиентов в Нюрнберге. Миграция идет быстрыми темпами, и уже перенесено более 20 000 серверов. Выводы Вы можете задаться вопросом, почему мы беспокоим вас ситуацией, которая в итоге не повлияла ни на один из ваших серверов. Мы считаем важным показать вам, что когда мы говорили, что извлечем урок из сентябрьского сбоя, мы действительно имели это в виду. Мы действовали быстрее, наши процессы были лучше. Ситуация в октябре могла бы оказать на наших клиентов такое же влияние, как и сентябрьское отключение, но благодаря внесенным нами изменениям ни один клиент не пострадал. Нам еще предстоит пройти долгий путь, но мы продолжим улучшать стабильность нашей инфраструктуры и улучшать опыт наших клиентов...
Полное вскрытие, включая хронологию инцидента, шаги, предпринятые нами для его разрешения, а также меры по улучшению нашей реакции в будущем. Что именно произошло? 2 сентября 2024 года все VPS, выделенные серверы и экземпляры объектного хранилища в Нюрнбергском дата-центре стали недоступны. Панель управления клиентов, связь со службой поддержки по электронной почте и телефону, а также размещение новых заказов не функционировали. Почему экземпляры клиентов и системы Contabo стали недоступны? Экземпляры клиентов и системы Contabo (такие как панель управления клиентов и каналы поддержки) стали недоступны, поскольку они были отключены, чтобы избежать превышения температуры внутри центра обработки данных 40°C (104°F), что является максимальной температурой для работы наших серверов и сетевых устройств. Это также делается для предотвращения повреждения HDD, SSD и NVMe-хранилищ, что может привести к потере данных. Почему температура внутри центра обработки данных в Нюрнберге повысилась? Температура внутри дата-центра в Нюрнберге росла, так как система кондиционирования воздуха не охлаждала воздух внутри дата-центра. Серверы выделяют тепло во время работы, и без работы кондиционера температура поднялась выше безопасного предела. Высокие наружные температуры еще больше усугубили ситуацию. Почему система охлаждения не работала? Система охлаждения перестала охлаждать воздух, так как она автоматически отключилась и больше не включилась. Почему система охлаждения автоматически отключилась? Система охлаждения была автоматически отключена, поскольку дата-центр в Нюрнберге перешел на источник бесперебойного питания (ИБП) в качестве аварийного источника питания. Это стандартный процесс отключения системы охлаждения, когда питание дата-центра обеспечивается ИБП, и ее повторного включения через несколько секунд после того, как дизель-генератор возьмет на себя управление или восстановится электроснабжение от общественной сети. Почему Нюрнбергский центр обработки данных перешел на ИБП в качестве аварийного источника питания? В местной электросети произошел перепад напряжения. Это заставило наши системы переключиться на ИБП для обеспечения бесперебойной подачи питания и временно отключить систему охлаждения. ИБП был активирован и обеспечивал питание в течение 3 секунд, когда основной источник питания снова взял на себя управление. Почему наблюдались колебания напряжения в местной электросети? Колебания напряжения в местной электросети были вызваны сильной грозой с ударами молний по всей Франконии, особенно в районе Нюрнберга. Наш центр обработки данных оборудован громоотводами для защиты нашего центра обработки данных от воздействия прямого удара молнии. Очевидно, что громоотводы не способны смягчить воздействие ударов молнии, которые поражают другие сооружения, такие как линии электропередач, иногда расположенные в нескольких километрах от нашего здания. Почему система охлаждения не включилась автоматически? Система охлаждения не включилась автоматически из-за неисправности в шине управления. Кроме того, наши попытки вручную перезапустить системы охлаждения не увенчались успехом. Охлаждение было восстановлено только после жесткой перезагрузки, выполненной уполномоченным техником из компании, которая предоставила охлаждающие устройства. Точная хронология события Ниже приводится хронология инцидента (по центральноевропейскому летнему времени), в которой подробно описаны наши ответные действия и основные действия, предпринятые для восстановления услуг: 2 сентября 2024 г., 07:14: обнаружены перепады напряжения, питание автоматически переключилось на ИБП. Серверы продолжают работать, системы охлаждения отключаются. 2 сентября 2024 г., 07:14: питание от сети восстанавливается через 3 секунды, система охлаждения не перезапускается. 2 сентября 2024 г., 07:14: оповещение мониторинга о переключении на ИБП и отключении охладителей отправлено персоналу центра обработки данных. Процесс обработки инцидента начался. Температура начинает расти. 2 сентября 2024 г., 07:33: оповещение мониторинга о том, что первая серверная комната достигла критической температуры, сотрудники оценивают ситуацию. 2 сентября 2024 г., 08:13: первые системы Contabo отключаются. 2 сентября 2024 г., 08:41: команда на месте оценила, что они не могут вручную включить системы охлаждения. Вскоре после этого вызывается техник из компании, занимающейся системами охлаждения. Технический специалист недоступен немедленно, поскольку уже отправлен в другие предприятия в районе, затронутом аналогичной проблемой. 2 сентября 2024 г., 11:30–12:08: Температура превышает безопасный порог в одной серверной комнате за другой, серверы отключаются, чтобы предотвратить повреждение и потерю данных. 2 сентября 2024 г., 12:55: Дождь прекращается, позволяя открыть заслонки защиты от дыма для вентиляции. Промышленные вентиляторы активируются для более быстрого перемещения горячего воздуха. Температура начинает понижаться. 2 сентября 2024 г., 13:55: Основные сетевые соединения и компоненты восстанавливаются. 2 сентября 2024 г., 14:25: Система охлаждения перезапускается после визита стороннего технического специалиста. 2 сентября 2024 г., 15:05: Серверы постепенно возвращаются в строй по мере снижения температуры. 2 сентября 2024 г., 15:30: Кластер объектного хранилища снова в строю. 2 сентября 2024 г., 15:42: Системы Contabo, включая панель управления клиента, полностью восстановлены. 2 сентября 2024 г., 18:00: 95% серверов снова в сети. 3 сентября 2024 г. 19:55: Инцидент решен. Отдельные сообщения о проблемах с виртуальными и выделенными серверами обрабатываются службой технической поддержки в обычном режиме. А как насчет избыточности? Все критические системы в центре обработки данных в Нюрнберге были спроектированы с избыточностью N+1. Это означает, что, например, если центру обработки данных требуется 2 охлаждающих устройства для кондиционирования воздуха (N=2), вместо них устанавливалось 3 устройства (N+1 = 2+1 = 3). Тот же принцип применим к другим критическим системам, таким как электропитание или подключение к интернету. Вышеупомянутое переключение на питание от ИБП было примером избыточности электропитания в действии. К сожалению, имеющиеся избыточности не смогли предотвратить отключение, описанное выше. Что насчет резервных систем Contabo (таких как Панель управления клиента или каналы поддержки)? У нас есть процесс обеспечения непрерывности бизнеса для систем Contabo (например, Панель управления клиентами или каналы поддержки), и он был активирован, как и планировалось, но до того, как мы перешли на альтернативные местоположения, системы в Нюрнберге были восстановлены. Уроки и исправление Во-первых, мы решили перевести всех клиентов из Нюрнберга в наш недавно построенный центр обработки данных Hub Europe. Этот объект предназначен для достижения доступности 99,982%, необходимой для центров обработки данных Tier 3, обеспечивает более надежную защиту от инцидентов, подобных описанному выше. Процесс уже начался, и с затронутыми клиентами связываются напрямую. Во-вторых, мы пересмотрим наши планы аварийного восстановления и процедуры отката для систем Contabo, таких как Панель управления клиентов и каналы поддержки, чтобы обеспечить их более высокую доступность даже в случае возникновения инцидентов. В-третьих, мы пересматриваем наш процесс реагирования на инциденты, чтобы быстрее разрешать инциденты и лучше информировать клиентов во время инцидентов. Мы осознаем, что наши партнеры полагаются на нас, и мы активно работаем над воплощением немецкого качества, которое лежит в основе нашей работы. Мы еще раз благодарим наших клиентов за их терпение и понимание во время этого события, и мы заверяем их, что мы стремимся предотвратить подобные проблемы в будущем. Мы будем более открыто сообщать обо всех действиях, которые мы предпринимаем для обеспечения бесперебойной работы ваших серверов во всех наших центрах обработки данных по всему миру...
Ожидание окончено! Мы рады сообщить, что Здание 1 нашего совершенно нового центра обработки данных запущено и работает. Вот взгляд изнутри на все особенности, которые делают Hub Europe самым надежным центром обработки данных в семействе Contabo. Hub Europe: дом для 50 000 серверов Центр обработки данных Hub Europe занимает площадь 25 600 квадратных метров, что примерно равно 4 футбольным полям. Центр обработки данных будет включать до 6 зданий с общей ИТ-нагрузкой 9,6 МВт. Это означает, что мы можем разместить здесь до 50 000 физических серверов. Он был спроектирован с избыточностью N+1 для достижения годовой доступности не менее 99,982%, необходимой для центров обработки данных Tier 3. Каждое здание независимо подключено к электросети и интернету, имеет отдельную систему охлаждения и вторичную систему питания, включая ИБП и дизельный генератор. Серверы хранятся в 2 серверных комнатах, в каждой из которых по десять рядов серверных стоек. Центральное расположение с первоклассным подключением Hub Europe находится в выгодном месте, выбранном для обеспечения отличной связи по всей Европе и миру. Он оборудован двумя оптоволоконными линиями, ведущими на север и на юг в две разные точки обмена интернет-трафиком. Мы также заключили контракты с двумя разными поставщиками восходящих каналов Tier 1, каждый из которых предоставляет две резервные линии 100 Gigabit. Эти линии будут расширяться по мере увеличения трафика. Такая настройка гарантирует непрерывное подключение к Интернету, даже если один физический канал связи выйдет из строя или если один провайдер связи столкнется с проблемами, а также отличную задержку по всей Европе. Ниже вы можете увидеть схему времени пинга из нового центра обработки данных в ключевые точки по всему миру. Опытная команда на месте Мы собрали команду опытных профессионалов во главе с менеджером с более чем 20-летним опытом работы в центрах обработки данных. Члены команды работают вместе уже более десяти лет и имеют офисы на месте, чтобы быть готовыми реагировать 24/7. Резервное подключение питания Парк дата-центра расположен в 200 метрах от трансформаторной станции. Это обеспечивает стабильное и надежное электроснабжение от общественной сети. Для обеспечения резервирования построены две отдельные линии электропередач. Мы следуем одному и тому же уровню избыточности на всем пути от высоковольтных трансформаторов до серверных стоек. В маловероятном случае, если обе линии электропередач выйдут из строя, источник бесперебойного питания (ИБП) и дизельный генератор обеспечат альтернативное электроснабжение в течение нескольких дней. Перед запуском мы провели обширное тестирование банка нагрузки. Мы использовали банки нагрузки для создания искусственной IT-нагрузки, чтобы гарантировать бесперебойную работу здания 1 на проектной мощности 1,6 МВт. Надежная система охлаждения Система охлаждения основана на прямом свободном охлаждении. В этой системе холодный воздух проходит через фальшпол и холодные коридоры в стойки, а горячий воздух, вырабатываемый серверами, выбрасывается в горячие коридоры. Затем горячий воздух поднимается вверх и выталкивается за пределы здания. Наклон крыши обеспечивает дополнительное пространство для горячего воздуха вдали от серверов. Этот метод минимизирует мощность, необходимую для механической вентиляции, и позволяет использовать наружный воздух для охлаждения в течение 6-8 месяцев в году. Если наружная температура недостаточно низкая для обеспечения надлежащего охлаждения, вступают в действие 36 компрессоров, чтобы поддерживать безопасную температуру для серверов. В целом, это снижает потребление энергии до 60% по сравнению с установкой, где механическая вентиляция и охлаждение должны использоваться на постоянной основе. Также есть несколько дополнительных преимуществ этой системы, так как меньше движущихся частей, ниже эксплуатационные и эксплуатационные расходы. Это позволяет нам сохранять отличные цены, даже когда другие расходы растут. В результате Hub Europe имеет проектную эффективность использования энергии (PUE) 1,168, что делает его одним из самых энергоэффективных парков центров обработки данных в Европе. PUE — это глобальный стандарт, который показывает, сколько электроэнергии необходимо для работы определенного объема ИТ-нагрузки. В нашем случае это означает, что для работы серверов, потребляющих 1 кВт, нам нужно 1,168 кВт, а оставшиеся 0,1168 кВт идут в основном на охлаждение. 100% зеленая энергия Мы не только оптимизируем количество необходимой нам энергии. Мы также позаботились о том, откуда она поступает. Hub Europe питается от 100% безуглеродной энергии. Более того, мы установили фотоэлектрические панели на каждом здании общей мощностью более 300 кВтп (пиковая мощность киловатт). Это еще больше снижает наше воздействие на окружающую среду и позволяет нам гарантировать низкие цены для наших клиентов. Мы находимся в процессе получения сертификата ISO 50001, подтверждающего энергоэффективность этого парка центров обработки данных. Hub Europe: обеспечение безопасности ваших экземпляров Безопасность — наш главный приоритет, поэтому мы сделали все возможное, чтобы защитить ваши данные и нашу инфраструктуру от различных рисков. Перед началом строительства мы провели обширное исследование потенциального риска стихийных бедствий в этом районе. На основании результатов мы приняли ряд превентивных мер. Наш дата-центр оборудован пожарной сигнализацией и азотными огнетушителями, которые немедленно активируются при необходимости. Для предотвращения распространения огня между серверными комнатами установлены противопожарные двери. Мы подняли пол на 1,2 м и установили высокопроизводительный насос, чтобы гарантировать, что весь объект выдержит 300-летнее наводнение. На объекте также имеются шлюзы для быстрой установки, если это необходимо. Это в дополнение к регулярным мерам по предотвращению наводнений, запланированным местным правительством. Молниезащита также осуществляется в соответствии с международными стандартами. Приняты некоторые современные меры физической безопасности; однако мы не будем раскрывать их по соображениям безопасности :). Что ждет Hub Europe дальше? Здание 1 уже полностью функционирует и обслуживает клиентов, на момент написания статьи запущено более 20 000 экземпляров. Здания 2 и 3 планируется ввести в эксплуатацию в 2025 году (Q1 и Q3 соответственно)...