On 20 октября 2025Amazon Web Services (AWS) — крупнейший в мире поставщик облачных услуг — пострадал крупный сбой в регионе US-EAST-1 (Северная Вирджиния) Это событие почти на 24 часа нарушило работу сервисов по всему миру. Это событие подчеркнуло критическую зависимость современной интернет-инфраструктуры от одного облачного провайдера и вновь оживило дискуссии об устойчивости, резервировании и многооблачных стратегиях.
Обзор инцидента
Событие: Увеличение количества ошибок и задержек
Регион: US-EAST-1 (Сев. Вирджиния)
Время: 19 октября, 11:49 – 20 октября, 3:01 (тихоокеанское время)
Уровень опасности: Нарушается
Основная причина: Ошибка разрешения DNS в конечной точке DynamoDB
Затронутые службы: Более 140 сервисов AWS, включая EC2, Lambda, S3, DynamoDB, CloudWatch, Redshift и другие.
Хронология и анализ первопричин
Отключение началось поздно вечером 19 октября 2025, когда инженеры обнаружили повышенное количество ошибок в нескольких сервисах AWS. Первоначальные исследования показали, Amazon DynamoDB, основная служба базы данных, обеспечивающая работу многочисленных внутренних и клиентских приложений. 12:26 утра по тихоокеанскому времениAWS определила, что проблема возникла из-за ошибочное обновление DNS что нарушило разрешение конечных точек, фактически разрушив «телефонную книгу», которая направляет службы к местам назначения.
Сбой DNS спровоцировал каскад зависимых системных ошибок:
- Запуск экземпляра EC2 остановлен из-за зависимостей DynamoDB.
- Проверки работоспособности сетевого балансировщика нагрузки произошел сбой, что привело к потере подключения к таким службам, как Lambda, SQS и CloudWatch.
- обновления IAM и Глобальные таблицы DynamoDB также возникли задержки из-за зависимости от пострадавшего региона.
Инженеры AWS параллельно применяли меры по снижению риска: очищали кэши DNS, ограничивали запуски экземпляров EC2 и постепенно восстанавливали сетевое подключение. 2:24 утра по тихоокеанскому времени, основная проблема с DNS была решена, но проблемы с сетью и подсистемой EC2 сохранялись до утра. Подсистема работоспособности сетевого балансировщика нагрузки был полностью восстановлен 9:38 утра по тихоокеанскому времени, с окончательной нормализацией обслуживания в 3:01 PDT.
Область воздействия
Последствия были обширными, затронув как корпоративные сервисы, так и популярные потребительские платформы по всему миру. Более 140 сервисов AWS были нарушены, в том числе:
- Вычисления и сети: EC2, ECS, EKS, эластичная балансировка нагрузки
- Данные и хранение: DynamoDB, S3, RDS, Redshift, ElastiCache
- Бессерверный: Лямбда, EventBridge, SQS, ступенчатые функции
- Безопасность и управление: IAM, организации AWS, CloudTrail, конфигурация
- Инструменты разработчика: CodeBuild, Amplify, AppSync, CloudFormation
Сбой затронул не только клиентов AWS. Глобальные платформы, такие как Snapchat, Fortnite, Roblox, Coinbase, Venmo, И даже Собственные сервисы Amazon Prime Video и Ring Возникли перебои. Финансовые учреждения, такие как Lloyds и Halifax, сообщили о проблемах со входом в систему, а правительственные порталы временно отключились. AWS удерживала около 33% доли мирового рынка облачной инфраструктуры, резонанс от этого события был беспрецедентным.
Уроки зависимости от облака
Этот инцидент демонстрирует ключевую проблему современной облачной архитектуры: зависимость от одного регионаНесмотря на многозонную структуру AWS, многие глобальные системы остаются регионально привязанными — особенно к США-ВОСТОК-1, на котором размещены многочисленные плоскости управления и глобальные конечные точки API.
Хотя кибератаки не было, событие показало, как внутренняя ошибка конфигурации в одной базовой службе (в данном случае DNS) может распространиться на зависимые системы, парализуя глобальные операции.
RELIANOIDПерспектива: Достижение действительно высокой доступности с помощью GSLB
At RELIANOIDМы считаем, что устойчивость облачных сред должна выходить за рамки избыточности в рамках одного поставщика. Наши Глобальная балансировка нагрузки серверов (GSLB) решение обеспечивает постоянную доступность даже в случае сбоя работы крупного поставщика облачных услуг или региона.
Как RELIANOID GSLB помогает предотвратить такие сбои
- Непрерывность работы в нескольких облаках и регионах: GSLB интеллектуально распределяет трафик по независимым регионам или поставщикам (например, AWS, Azure, GCP, локально), обеспечивая непрерывность обслуживания в случае сбоев на региональном уровне или на уровне поставщика.
- Мониторинг здоровья в реальном времени: Непрерывные проверки конечных точек позволяют автоматически перенаправлять трафик на исправные узлы, сводя к минимуму время простоя во время таких событий, как сбои конечных точек DNS или API.
- Интеллектуальная балансировка нагрузки DNS: RELIANOIDGSLB на базе DNS динамически направляет клиентские запросы в оптимальные центры обработки данных, снижая риски, связанные с неправильной настройкой DNS или задержками распространения.
- Плавное переключение на резерв и восстановление: Благодаря таким политикам, как взвешенный циклический алгоритм, маршрутизация на основе задержки и учет геолокации, GSLB поддерживает постоянство обслуживания и сводит к минимуму сбои даже в сложных многорегиональных развертываниях.
Внедрение GSLB в рамках более широкой стратегии обеспечения высокой доступности позволяет отделить критически важные для бизнеса приложения от операционных зависимостей одного поставщика. Независимо от того, связана ли проблема с разрешением DNS, проверками работоспособности сети или внутренними сбоями API, GSLB обеспечивает прозрачный механизм автоматического переключения на резервный ресурс и непрерывного взаимодействия с пользователем.
Заключение
Сбой в работе AWS US-EAST-1 в октябре 2025 г. служит убедительным напоминанием: даже самые передовые облачные инфраструктуры могут выйти из строя. Для настоящей устойчивости требуются архитектурная независимость, проактивные механизмы отказоустойчивости и интеллектуальная глобальная балансировка нагрузки.
RELIANOIDGSLB от .com обеспечивает эту устойчивость, помогая организациям гарантировать бесперебойную работу, надежность и доверие независимо от того, где возникнет очередной сбой.
Узнайте больше о GSLB и стратегиях высокой доступности.