Анализ сбоев AWS — уроки устойчивости облака и роль GSLB

5 ноября, 2025 | Miscelanea

On 20 октября 2025Amazon Web Services (AWS) — крупнейший в мире поставщик облачных услуг — пострадал крупный сбой в регионе US-EAST-1 (Северная Вирджиния) Это событие почти на 24 часа нарушило работу сервисов по всему миру. Это событие подчеркнуло критическую зависимость современной интернет-инфраструктуры от одного облачного провайдера и вновь оживило дискуссии об устойчивости, резервировании и многооблачных стратегиях.

Обзор инцидента

Событие: Увеличение количества ошибок и задержек
Регион: US-EAST-1 (Сев. Вирджиния)
Время: 19 октября, 11:49 – 20 октября, 3:01 (тихоокеанское время)
Уровень опасности: Нарушается
Основная причина: Ошибка разрешения DNS в конечной точке DynamoDB
Затронутые службы: Более 140 сервисов AWS, включая EC2, Lambda, S3, DynamoDB, CloudWatch, Redshift и другие.

Хронология и анализ первопричин

Отключение началось поздно вечером 19 октября 2025, когда инженеры обнаружили повышенное количество ошибок в нескольких сервисах AWS. Первоначальные исследования показали, Amazon DynamoDB, основная служба базы данных, обеспечивающая работу многочисленных внутренних и клиентских приложений. 12:26 утра по тихоокеанскому времениAWS определила, что проблема возникла из-за ошибочное обновление DNS что нарушило разрешение конечных точек, фактически разрушив «телефонную книгу», которая направляет службы к местам назначения.

Сбой DNS спровоцировал каскад зависимых системных ошибок:

  • Запуск экземпляра EC2 остановлен из-за зависимостей DynamoDB.
  • Проверки работоспособности сетевого балансировщика нагрузки произошел сбой, что привело к потере подключения к таким службам, как Lambda, SQS и CloudWatch.
  • обновления IAM и Глобальные таблицы DynamoDB также возникли задержки из-за зависимости от пострадавшего региона.

Инженеры AWS параллельно применяли меры по снижению риска: очищали кэши DNS, ограничивали запуски экземпляров EC2 и постепенно восстанавливали сетевое подключение. 2:24 утра по тихоокеанскому времени, основная проблема с DNS была решена, но проблемы с сетью и подсистемой EC2 сохранялись до утра. Подсистема работоспособности сетевого балансировщика нагрузки был полностью восстановлен 9:38 утра по тихоокеанскому времени, с окончательной нормализацией обслуживания в 3:01 PDT.

Область воздействия

Последствия были обширными, затронув как корпоративные сервисы, так и популярные потребительские платформы по всему миру. Более 140 сервисов AWS были нарушены, в том числе:

  • Вычисления и сети: EC2, ECS, EKS, эластичная балансировка нагрузки
  • Данные и хранение: DynamoDB, S3, RDS, Redshift, ElastiCache
  • Бессерверный: Лямбда, EventBridge, SQS, ступенчатые функции
  • Безопасность и управление: IAM, организации AWS, CloudTrail, конфигурация
  • Инструменты разработчика: CodeBuild, Amplify, AppSync, CloudFormation

Сбой затронул не только клиентов AWS. Глобальные платформы, такие как Snapchat, Fortnite, Roblox, Coinbase, Venmo, И даже Собственные сервисы Amazon Prime Video и Ring Возникли перебои. Финансовые учреждения, такие как Lloyds и Halifax, сообщили о проблемах со входом в систему, а правительственные порталы временно отключились. AWS удерживала около 33% доли мирового рынка облачной инфраструктуры, резонанс от этого события был беспрецедентным.

Уроки зависимости от облака

Этот инцидент демонстрирует ключевую проблему современной облачной архитектуры: зависимость от одного регионаНесмотря на многозонную структуру AWS, многие глобальные системы остаются регионально привязанными — особенно к США-ВОСТОК-1, на котором размещены многочисленные плоскости управления и глобальные конечные точки API.

Хотя кибератаки не было, событие показало, как внутренняя ошибка конфигурации в одной базовой службе (в данном случае DNS) может распространиться на зависимые системы, парализуя глобальные операции.

RELIANOIDПерспектива: Достижение действительно высокой доступности с помощью GSLB

At RELIANOIDМы считаем, что устойчивость облачных сред должна выходить за рамки избыточности в рамках одного поставщика. Наши Глобальная балансировка нагрузки серверов (GSLB) решение обеспечивает постоянную доступность даже в случае сбоя работы крупного поставщика облачных услуг или региона.

Как RELIANOID GSLB помогает предотвратить такие сбои

  • Непрерывность работы в нескольких облаках и регионах: GSLB интеллектуально распределяет трафик по независимым регионам или поставщикам (например, AWS, Azure, GCP, локально), обеспечивая непрерывность обслуживания в случае сбоев на региональном уровне или на уровне поставщика.
  • Мониторинг здоровья в реальном времени: Непрерывные проверки конечных точек позволяют автоматически перенаправлять трафик на исправные узлы, сводя к минимуму время простоя во время таких событий, как сбои конечных точек DNS или API.
  • Интеллектуальная балансировка нагрузки DNS: RELIANOIDGSLB на базе DNS динамически направляет клиентские запросы в оптимальные центры обработки данных, снижая риски, связанные с неправильной настройкой DNS или задержками распространения.
  • Плавное переключение на резерв и восстановление: Благодаря таким политикам, как взвешенный циклический алгоритм, маршрутизация на основе задержки и учет геолокации, GSLB поддерживает постоянство обслуживания и сводит к минимуму сбои даже в сложных многорегиональных развертываниях.

Внедрение GSLB в рамках более широкой стратегии обеспечения высокой доступности позволяет отделить критически важные для бизнеса приложения от операционных зависимостей одного поставщика. Независимо от того, связана ли проблема с разрешением DNS, проверками работоспособности сети или внутренними сбоями API, GSLB обеспечивает прозрачный механизм автоматического переключения на резервный ресурс и непрерывного взаимодействия с пользователем.

Заключение

Сбой в работе AWS US-EAST-1 в октябре 2025 г. служит убедительным напоминанием: даже самые передовые облачные инфраструктуры могут выйти из строя. Для настоящей устойчивости требуются архитектурная независимость, проактивные механизмы отказоустойчивости и интеллектуальная глобальная балансировка нагрузки.

RELIANOIDGSLB от .com обеспечивает эту устойчивость, помогая организациям гарантировать бесперебойную работу, надежность и доверие независимо от того, где возникнет очередной сбой.

Узнайте больше о GSLB и стратегиях высокой доступности.

Похожие статьи

Автор: reuser | 28 апреля 2026 г.
Чили переживает одну из самых значительных технологических трансформаций в своей современной истории. Как в государственном, так и в частном секторах цифровые инициативы перестали быть экспериментальными или необязательными — они…
199 ЛюбитКомментарии отключены О технологическом ускорении Чили: искусственный интеллект и передовая кибербезопасность
Автор: reuser | 27 апреля 2026 г.
Высокая доступность (HA) часто преподносится как священный Грааль бесперебойной работы. Кластеры, резервные серверы и многозональные развертывания обещают надежность на уровне «четырех девяток». Однако история показывает, что даже…
197 ЛюбитКомментарии отключены За пределами высокой доступности: почему аварийное восстановление важно и как RELIANOID Поставляет
Автор: reuser | 20 апреля 2026 г.
Киберугрозы в Европе перестали быть чисто теоретическими. От геополитической напряженности и спонсируемых государством киберопераций до цифровых последствий войн и гибридных конфликтов, устойчивость жизненно важных служб…
356 ЛюбитКомментарии отключены В рамках ENISA NIS360: Действительно ли наиболее важные сектора экономики Европы защищены?