Операционные аварии системы¶
Алертгруппа | Имя алерта | Описание | Алгоритм обработки алерта |
---|---|---|---|
blackbox.rules | EndpointDown | Недоступен Endpoint, например веб-сервис или ldap сервер | Зайти на ноду endpoint'a, с помощью логов выяснить причину падения, восстановить работу сервиса |
blackbox.rules | SSLCertExpiringSoon | Срок действия SSL сертификата истекает через (кол-во дней) | Перевыпустить сертификат или обратиться к тому, кто его выдавал |
clickhouse.rules | ClickhouseInsertRateLow | Низкая скорость вставки в ClickHouse | Посмотреть в графиках среднюю скорость вставки, проверить статус Clickhouse, проверить chwriter |
clickhouse.rules | DiskSpacePredictionCH | Загрузка места на диске ClickHouse превысит N% через 3 дня | Очистка старых записей в ClickHouse с помощью chpolicy |
consul.rules | ConsulServicesCountDecrease | Более N% процессов сервиса не работают | Посмотреть почему сервисы перестали быть зарегистрированы в Consul |
infra.rules | CPUUsageHigh | Загрузка процессора превышает % | Выяснить причину повышеннего потребления, принять меры при необходимости |
infra.rules | MemoryUsageHigh | Использование памяти превышает % | Выяснить причину повышеннего потребления, принять меры при необходимости |
infra.rules | SwapUsageHigh | Загрузка Swap превышает % | Выяснить причину повышеннего потребления, принять меры при необходимости |
infra.rules | LoadAverageHigh | Высокий ЛА | Выяснить причину повышеннего потребления, принять меры при необходимости |
infra.rules | DiskSpaceUsage | Потребление места на диске превышает % | В зависимости от типа ноды, необходимо предпринять следующие действия: 1) MongoDB - выгрузить архивные коллекции, запустить компакт, в крайнем случае запустить переливку данных 2) Postgres - проверить сколько весят логи (ротация логов, очистка логов) 3) Clickhouse - воспользоваться chpolicy, очистить старые данные 4)Провести исследования |
infra.rules | DiskInodesUsageHigh | Потребление inode на диске превышает % | Провести исследования |
infra.rules | SystemReboot | Перезагрузка системы | Выяснить причину перезагрузки |
liftbridge.rules | CorrelatorQueueTooLarge | Очередь сообщений для сервиса correlator более чем N | Посмотреть в графиках как долго длится ситуация, зайти в логи correlator'a, при необходимости перезапустить сервис |
liftbridge.rules | ClassifierQueueTooLarge | Очередь сообщений для сервиса classifier более чем N | Посмотреть в графиках как долго длится ситуация, зайти в логи classifier'a, при необходимости перезапустить сервис |
liftbridge.rules | UncommitedMessagesTooMuch | Не все сообщения записаны на все реплики согласно числу isr | Посмотреть логи всех сервисов Liftbridge, вероятно одна из нод кластера недоступна, либо не выполнены миграции Liftbridge |
liftbridge.rules | StreamInvertedValue | Произошло смещение курсора | Исравляется пересозданием стрима |
mongo.rules | MongoClasterServerCountChange | Кластер MongoDB уменьшился в размерах | Выяснить причину недоступности члена кластера, восстановить доступность |
mongo.rules | MongoConnectionLow | Нет открытых соединений до MongoDB | Выяснить почему нет активный подключений |
mongo.rules | MongoReplicationLag | Задержка репликации на MongoDB | Проверить логи, запустить resync |
noc.rules | FMNoEscalations | Число созданных ицидентов во внешней системе равно нулю | Проверить логи эскалатора, статус сервиса, посмотреть графики аварий |
noc.rules | FmTooManyAlerts | Высокий процент аварий | Посмотреть ситуацию на графиках |
noc.rules | LateTasksOnPool | Задержка выполнения заданий опроса | Посмотреть график, посмотреть логи активатора |
noc.rules | LateTasksScheduler | Очередь заданий шедулера перегружена | Идти в логи шедулера, посмотреть на графики аварий, если аварий нет, то возможно связано с долгим временем ответа от базы данных |
noc.rules | HighTracesPerSecond | Высокая скорость возникновения трейсов от активатора | Идти в логи активатора, скорее всего связано с ошибками в профилях железок |
noc.rules | HighTracesPerSecond | Высокая скорость возникновения трейсов от не активатора | Посмотреть в логах сервиса, возможно связано с недоступностью базы данных |
postgres.rules | PostgresqlDeadlocksHigh | Обнаружены deadlocks на PostgreSQL | Если ситуация повторяется часто, то ищем ответ в логах PostgerSQL |
postgres.rules | PostgresqlBackendsLow | Количество свободных подключений к PostgreSQL | Поставить pgbouncer, увеличить кол-во тредов, посмотреть какие подключения на PostgreSQL не завершаются никогда |
prometheus.rules | ServiceDown | Prometheuse/vmagent не может соединиться с экспортером | Зайти на ноду с экспортером, проверить доступность экспортера, посмотреть логи, перезапустить при необходимости |
self.rules | DeadMansSwitch | Система для проверки работы алертов, всегда активен | Действие не требуется |