- Обзор
- Область проверки
- Ключевые компоненты для проверки
- Проверка переключения при отказе локальной системы на систему аварийного восстановления.
- Распространенные проблемы и устранение неполадок
- Вопросы, касающиеся публичной интеллектуальной собственности на основе приложений.
- Руководство по внутренним услугам GSLB
- Лучшие практики
- Контрольный список проверки
- Резюме
Обзор #
Данное руководство предлагает структурированный подход к проверке и устранению неполадок в конфигурациях GSLB (Global Server Load Balancing / GTM) в RELIANOID среды, особенно когда ожидается автоматическое переключение сервисов с локальных площадок на площадки аварийного восстановления (DR).
В него также включены рекомендации по использованию общедоступных IP-адресов на основе приложений и внутренних сервисов GSLB.
Область проверки #
Данное руководство применимо к:
- Развертывание GSLB на нескольких площадках (локальная сеть + аварийное восстановление)
- Сервисы, предоставляемые через общедоступные IP-адреса.
- резервирование на основе DNS с использованием RELIANOID GSLB
- Сценарии автоматического переключения на резервный сервер на основе проверок работоспособности
Ключевые компоненты для проверки #
Перед устранением неполадок, связанных с переключением на резервный сервер, проверьте следующее:
Конфигурация GSLB #
- Сервис GSLB правильно настроен:
- Несколько серверных площадок (локальная + резервное копирование)
- Правильная политика разрешения конфликтов (приоритет, задержка и т. д.)
- DNS-зона и записи определены корректно.
Проверки здоровья #
- Медицинские осмотры включают в себя:
- Включено для всех серверных служб
- Правильное определение целевых точек приложения (а не только IP-адреса/порта)
- Настроены ожидаемые коды ответа или проверка содержимого.
Конфигурация DNS #
- Значения TTL настроены соответствующим образом (для обеспечения отказоустойчивости рекомендуется низкое значение TTL).
- Авторитетная DNS-система указывает на RELIANOID GSLB
Проверка переключения при отказе локальной системы на систему аварийного восстановления. #
Шаг 1: Подтверждение нормальной работы (активен основной режим) #
- Запрос на разрешение DNS-запроса:
копать
- Подтвердите это:
- Полученный IP-адрес соответствует локальной сети.
- Приложение доступно и безопасно.
Шаг 2: Имитация отказа #
Инициировать сбой на основном узле:
- Остановить внутренние службы
- Блокировать конечную точку проверки работоспособности
- Отключить ферму или бэкэнд
Шаг 3: Проверка результатов проверки состояния здоровья #
- подтвердить RELIANOID основной сайт помечен как НЕДОСТУПНЫЙ
- Проверьте журналы и мониторинг, чтобы убедиться в следующем:
- Проверки состояния здоровья, как и ожидалось, не проходят.
- Отсутствие ложноположительных/ложноотрицательных результатов
Шаг 4: Проверка отказоустойчивости DNS #
- Повторите DNS-запрос:
копать
- Ожидаемый результат:
- Теперь IP-адрес должен указывать на резервный сайт.
Примечание: кэширование DNS может задерживать распространение в зависимости от значения TTL.
Шаг 5: Проверка доступности приложения #
- Получите доступ к приложению, используя полученный IP-адрес резервного сервера.
- Подтверждение:
- Приложение полностью функционально.
- Отсутствуют проблемы с зависимостями (база данных, API и т. д.).
Распространенные проблемы и устранение неполадок #
Переключение на резервный сервер не сработало. #
- Слишком либеральные проверки работоспособности (например, проверка TCP вместо HTTP).
- Неверная конечная точка проверки состояния здоровья.
- Бэкенд по-прежнему отвечает частично.
фиксированныйИспользуйте проверки на уровне приложения (статус HTTP, тело ответа).
DNS по-прежнему разрешается в основной DNS-сервер. #
- TTL слишком высокое значение
- Кэширование DNS на стороне клиента
- Рекурсивные DNS-серверы не обновляются
фиксированный:
- Меньшее значение TTL (например, 30–60 секунд)
- Очистите локальный кэш DNS
- Протестируйте с использованием внешних резолверов (см. @8.8.8.8)
Сайт DR не обслуживает трафик #
- Резервная система аварийного восстановления настроена неправильно.
- Отсутствуют зависимости (база данных, хранилище, аутентификация).
- Проблемы с брандмауэром или маршрутизацией.
фиксированныйПроверьте полную готовность стека аварийного восстановления, а не только балансировщика нагрузки.
Периодическое переключение при отказе (махание крыльями) #
- Нестабильные результаты медицинских обследований
- Задержка сети или потеря пакетов
- Несогласованные ответы бэкэнда
фиксированный:
- Настройте интервалы и пороговые значения проверки состояния здоровья.
- Повышение отказоустойчивости
Вопросы, касающиеся публичной интеллектуальной собственности на основе приложений. #
При использовании публичных IP-адресов для каждого сайта:
- Убедитесь, что каждый сайт объявляет свой собственный публичный IP-адрес.
- GSLB должен возвращать правильный IP-адрес для каждого сайта.
- Подтвердить:
- Правила NAT и брандмауэра
- SSL-сертификаты для каждой конечной точки
- Единообразное поведение приложения на всех сайтах
Руководство по внутренним услугам GSLB #
Для внутренних служб (частные DNS-серверы / внутренние приложения):
Конфигурация DNS #
- Используйте внутренние DNS-серверы, интегрированные с RELIANOID GSLB
- Убедитесь, что клиенты решают проблемы через соответствующие внутренние службы решения проблем.
Сетевые соображения #
- Проверьте маршрутизацию между сайтами (VPN/MPLS).
- Убедитесь, что резервный сайт доступен из всех клиентских сетей.
Проверки здоровья #
- Используйте внутренние конечные точки (частные IP-адреса).
- Проверка ответов на уровне приложения.
Избегание расщепления мозга #
- Обеспечьте надлежащую синхронизацию между узлами GSLB.
- Избегайте ситуаций, когда оба сайта ошибочно считаются активными.
Лучшие практики #
- Используйте низкие значения TTL для более быстрого переключения при сбое.
- Всегда используйте проверки состояния на уровне приложения.
- Регулярно проводите тренировки по переключению на резервный сервер.
- Отслеживайте разрешение DNS по всему миру.
- Обеспечьте единообразие конфигураций между основным и резервным серверами.
Контрольный список проверки #
[ ] Сервис GSLB настроен для всех сайтов
[ ] Проверки состояния здоровья проверены и надежны
[ ] TTL настроен соответствующим образом
[ ] Среда аварийного восстановления полностью работоспособна
[ ] Проверка и подтверждение отказоустойчивости DNS.
[ ] Приложение протестировано после переключения на резервный сервер
[ ] Внутренние службы проверены (если применимо)
Резюме #
Надлежащая проверка RELIANOID GSLB обеспечивает бесперебойное автоматическое переключение с локальной среды на среду аварийного восстановления, минимизируя время простоя и поддерживая непрерывность обслуживания.
Для успешного развертывания необходима координация между:
- DNS-конфигурация
- Проверки здоровья
- Готовность приложения
- Сетевой дизайн