Перейти к содержанию

Операционные аварии системы

Алертгруппа Имя алерта Описание Алгоритм обработки алерта
blackbox.rules EndpointDown Недоступен Endpoint, например веб-сервис или ldap сервер Зайти на ноду endpoint'a, с помощью логов выяснить причину падения, восстановить работу сервиса
blackbox.rules SSLCertExpiringSoon Срок действия SSL сертификата истекает через (кол-во дней) Перевыпустить сертификат или обратиться к тому, кто его выдавал
clickhouse.rules ClickhouseInsertRateLow Низкая скорость вставки в ClickHouse Посмотреть в графиках среднюю скорость вставки, проверить статус Clickhouse, проверить chwriter
clickhouse.rules DiskSpacePredictionCH Загрузка места на диске ClickHouse превысит N% через 3 дня Очистка старых записей в ClickHouse с помощью chpolicy
consul.rules ConsulServicesCountDecrease Более N% процессов сервиса не работают Посмотреть почему сервисы перестали быть зарегистрированы в Consul
infra.rules CPUUsageHigh Загрузка процессора превышает % Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rules MemoryUsageHigh Использование памяти превышает % Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rules SwapUsageHigh Загрузка Swap превышает % Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rules LoadAverageHigh Высокий ЛА Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rules DiskSpaceUsage Потребление места на диске превышает % В зависимости от типа ноды, необходимо предпринять следующие действия:
1) MongoDB - выгрузить архивные коллекции, запустить компакт, в крайнем случае запустить переливку данных
2) Postgres - проверить сколько весят логи (ротация логов, очистка логов)
3) Clickhouse - воспользоваться chpolicy, очистить старые данные
4)Провести исследования
infra.rules DiskInodesUsageHigh Потребление inode на диске превышает % Провести исследования
infra.rules SystemReboot Перезагрузка системы Выяснить причину перезагрузки
liftbridge.rules CorrelatorQueueTooLarge Очередь сообщений для сервиса correlator более чем N Посмотреть в графиках как долго длится ситуация, зайти в логи correlator'a, при необходимости перезапустить сервис
liftbridge.rules ClassifierQueueTooLarge Очередь сообщений для сервиса classifier более чем N Посмотреть в графиках как долго длится ситуация, зайти в логи classifier'a, при необходимости перезапустить сервис
liftbridge.rules UncommitedMessagesTooMuch Не все сообщения записаны на все реплики согласно числу isr Посмотреть логи всех сервисов Liftbridge, вероятно одна из нод кластера недоступна, либо не выполнены миграции Liftbridge
liftbridge.rules StreamInvertedValue Произошло смещение курсора Исравляется пересозданием стрима
mongo.rules MongoClasterServerCountChange Кластер MongoDB уменьшился в размерах Выяснить причину недоступности члена кластера, восстановить доступность
mongo.rules MongoConnectionLow Нет открытых соединений до MongoDB Выяснить почему нет активный подключений
mongo.rules MongoReplicationLag Задержка репликации на MongoDB Проверить логи, запустить resync
noc.rules FMNoEscalations Число созданных ицидентов во внешней системе равно нулю Проверить логи эскалатора, статус сервиса, посмотреть графики аварий
noc.rules FmTooManyAlerts Высокий процент аварий Посмотреть ситуацию на графиках
noc.rules LateTasksOnPool Задержка выполнения заданий опроса Посмотреть график, посмотреть логи активатора
noc.rules LateTasksScheduler Очередь заданий шедулера перегружена Идти в логи шедулера, посмотреть на графики аварий, если аварий нет, то возможно связано с долгим временем ответа от базы данных
noc.rules HighTracesPerSecond Высокая скорость возникновения трейсов от активатора Идти в логи активатора, скорее всего связано с ошибками в профилях железок
noc.rules HighTracesPerSecond Высокая скорость возникновения трейсов от не активатора Посмотреть в логах сервиса, возможно связано с недоступностью базы данных
postgres.rules PostgresqlDeadlocksHigh Обнаружены deadlocks на PostgreSQL Если ситуация повторяется часто, то ищем ответ в логах PostgerSQL
postgres.rules PostgresqlBackendsLow Количество свободных подключений к PostgreSQL Поставить pgbouncer, увеличить кол-во тредов, посмотреть какие подключения на PostgreSQL не завершаются никогда
prometheus.rules ServiceDown Prometheuse/vmagent не может соединиться с экспортером Зайти на ноду с экспортером, проверить доступность экспортера, посмотреть логи, перезапустить при необходимости
self.rules DeadMansSwitch Система для проверки работы алертов, всегда активен Действие не требуется