Перейти к содержанию

Операционные аварии системы

АлертгруппаИмя алертаОписаниеАлгоритм обработки алерта
blackbox.rulesEndpointDownНедоступен Endpoint, например веб-сервис или ldap серверЗайти на ноду endpoint'a, с помощью логов выяснить причину падения, восстановить работу сервиса
blackbox.rulesSSLCertExpiringSoonСрок действия SSL сертификата истекает через (кол-во дней)Перевыпустить сертификат или обратиться к тому, кто его выдавал
clickhouse.rulesClickhouseInsertRateLowНизкая скорость вставки в ClickHouseПосмотреть в графиках среднюю скорость вставки, проверить статус Clickhouse, проверить chwriter
clickhouse.rulesDiskSpacePredictionCHЗагрузка места на диске ClickHouse превысит N% через 3 дняОчистка старых записей в ClickHouse с помощью chpolicy
consul.rulesConsulServicesCountDecreaseБолее N% процессов сервиса не работаютПосмотреть почему сервисы перестали быть зарегистрированы в Consul
infra.rulesCPUUsageHighЗагрузка процессора превышает %Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rulesMemoryUsageHighИспользование памяти превышает %Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rulesSwapUsageHighЗагрузка Swap превышает %Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rulesLoadAverageHighВысокий ЛАВыяснить причину повышеннего потребления, принять меры при необходимости
infra.rulesDiskSpaceUsageПотребление места на диске превышает %В зависимости от типа ноды, необходимо предпринять следующие действия:
1) MongoDB - выгрузить архивные коллекции, запустить компакт, в крайнем случае запустить переливку данных
2) Postgres - проверить сколько весят логи (ротация логов, очистка логов)
3) Clickhouse - воспользоваться chpolicy, очистить старые данные
4)Провести исследования
infra.rulesDiskInodesUsageHighПотребление inode на диске превышает %Провести исследования
infra.rulesSystemRebootПерезагрузка системыВыяснить причину перезагрузки
liftbridge.rulesCorrelatorQueueTooLargeОчередь сообщений для сервиса correlator более чем NПосмотреть в графиках как долго длится ситуация, зайти в логи correlator'a, при необходимости перезапустить сервис
liftbridge.rulesClassifierQueueTooLargeОчередь сообщений для сервиса classifier более чем NПосмотреть в графиках как долго длится ситуация, зайти в логи classifier'a, при необходимости перезапустить сервис
liftbridge.rulesUncommitedMessagesTooMuchНе все сообщения записаны на все реплики согласно числу isrПосмотреть логи всех сервисов Liftbridge, вероятно одна из нод кластера недоступна, либо не выполнены миграции Liftbridge
liftbridge.rulesStreamInvertedValueПроизошло смещение курсораИсравляется пересозданием стрима
mongo.rulesMongoClasterServerCountChangeКластер MongoDB уменьшился в размерахВыяснить причину недоступности члена кластера, восстановить доступность
mongo.rulesMongoConnectionLowНет открытых соединений до MongoDBВыяснить почему нет активный подключений
mongo.rulesMongoReplicationLagЗадержка репликации на MongoDBПроверить логи, запустить resync
noc.rulesFMNoEscalationsЧисло созданных ицидентов во внешней системе равно нулюПроверить логи эскалатора, статус сервиса, посмотреть графики аварий
noc.rulesFmTooManyAlertsВысокий процент аварийПосмотреть ситуацию на графиках
noc.rulesLateTasksOnPoolЗадержка выполнения заданий опросаПосмотреть график, посмотреть логи активатора
noc.rulesLateTasksSchedulerОчередь заданий шедулера перегруженаИдти в логи шедулера, посмотреть на графики аварий, если аварий нет, то возможно связано с долгим временем ответа от базы данных
noc.rulesHighTracesPerSecondВысокая скорость возникновения трейсов от активатораИдти в логи активатора, скорее всего связано с ошибками в профилях железок
noc.rulesHighTracesPerSecondВысокая скорость возникновения трейсов от не активатораПосмотреть в логах сервиса, возможно связано с недоступностью базы данных
postgres.rulesPostgresqlDeadlocksHighОбнаружены deadlocks на PostgreSQLЕсли ситуация повторяется часто, то ищем ответ в логах PostgerSQL
postgres.rulesPostgresqlBackendsLowКоличество свободных подключений к PostgreSQLПоставить pgbouncer, увеличить кол-во тредов, посмотреть какие подключения на PostgreSQL не завершаются никогда
prometheus.rulesServiceDownPrometheuse/vmagent не может соединиться с экспортеромЗайти на ноду с экспортером, проверить доступность экспортера, посмотреть логи, перезапустить при необходимости
self.rulesDeadMansSwitchСистема для проверки работы алертов, всегда активенДействие не требуется