Операционные аварии системы¶

Алертгруппа	Имя алерта	Описание	Алгоритм обработки алерта
blackbox.rules	EndpointDown	Недоступен Endpoint, например веб-сервис или ldap сервер	Зайти на ноду endpoint'a, с помощью логов выяснить причину падения, восстановить работу сервиса
blackbox.rules	SSLCertExpiringSoon	Срок действия SSL сертификата истекает через (кол-во дней)	Перевыпустить сертификат или обратиться к тому, кто его выдавал
clickhouse.rules	ClickhouseInsertRateLow	Низкая скорость вставки в ClickHouse	Посмотреть в графиках среднюю скорость вставки, проверить статус Clickhouse, проверить chwriter
clickhouse.rules	DiskSpacePredictionCH	Загрузка места на диске ClickHouse превысит N% через 3 дня	Очистка старых записей в ClickHouse с помощью chpolicy
consul.rules	ConsulServicesCountDecrease	Более N% процессов сервиса не работают	Посмотреть почему сервисы перестали быть зарегистрированы в Consul
infra.rules	CPUUsageHigh	Загрузка процессора превышает %	Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rules	MemoryUsageHigh	Использование памяти превышает %	Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rules	SwapUsageHigh	Загрузка Swap превышает %	Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rules	LoadAverageHigh	Высокий ЛА	Выяснить причину повышеннего потребления, принять меры при необходимости
infra.rules	DiskSpaceUsage	Потребление места на диске превышает %	В зависимости от типа ноды, необходимо предпринять следующие действия: 1) MongoDB - выгрузить архивные коллекции, запустить компакт, в крайнем случае запустить переливку данных 2) Postgres - проверить сколько весят логи (ротация логов, очистка логов) 3) Clickhouse - воспользоваться chpolicy, очистить старые данные 4)Провести исследования
infra.rules	DiskInodesUsageHigh	Потребление inode на диске превышает %	Провести исследования
infra.rules	SystemReboot	Перезагрузка системы	Выяснить причину перезагрузки
liftbridge.rules	CorrelatorQueueTooLarge	Очередь сообщений для сервиса correlator более чем N	Посмотреть в графиках как долго длится ситуация, зайти в логи correlator'a, при необходимости перезапустить сервис
liftbridge.rules	ClassifierQueueTooLarge	Очередь сообщений для сервиса classifier более чем N	Посмотреть в графиках как долго длится ситуация, зайти в логи classifier'a, при необходимости перезапустить сервис
liftbridge.rules	UncommitedMessagesTooMuch	Не все сообщения записаны на все реплики согласно числу isr	Посмотреть логи всех сервисов Liftbridge, вероятно одна из нод кластера недоступна, либо не выполнены миграции Liftbridge
liftbridge.rules	StreamInvertedValue	Произошло смещение курсора	Исравляется пересозданием стрима
mongo.rules	MongoClasterServerCountChange	Кластер MongoDB уменьшился в размерах	Выяснить причину недоступности члена кластера, восстановить доступность
mongo.rules	MongoConnectionLow	Нет открытых соединений до MongoDB	Выяснить почему нет активный подключений
mongo.rules	MongoReplicationLag	Задержка репликации на MongoDB	Проверить логи, запустить resync
noc.rules	FMNoEscalations	Число созданных ицидентов во внешней системе равно нулю	Проверить логи эскалатора, статус сервиса, посмотреть графики аварий
noc.rules	FmTooManyAlerts	Высокий процент аварий	Посмотреть ситуацию на графиках
noc.rules	LateTasksOnPool	Задержка выполнения заданий опроса	Посмотреть график, посмотреть логи активатора
noc.rules	LateTasksScheduler	Очередь заданий шедулера перегружена	Идти в логи шедулера, посмотреть на графики аварий, если аварий нет, то возможно связано с долгим временем ответа от базы данных
noc.rules	HighTracesPerSecond	Высокая скорость возникновения трейсов от активатора	Идти в логи активатора, скорее всего связано с ошибками в профилях железок
noc.rules	HighTracesPerSecond	Высокая скорость возникновения трейсов от не активатора	Посмотреть в логах сервиса, возможно связано с недоступностью базы данных
postgres.rules	PostgresqlDeadlocksHigh	Обнаружены deadlocks на PostgreSQL	Если ситуация повторяется часто, то ищем ответ в логах PostgerSQL
postgres.rules	PostgresqlBackendsLow	Количество свободных подключений к PostgreSQL	Поставить pgbouncer, увеличить кол-во тредов, посмотреть какие подключения на PostgreSQL не завершаются никогда
prometheus.rules	ServiceDown	Prometheuse/vmagent не может соединиться с экспортером	Зайти на ноду с экспортером, проверить доступность экспортера, посмотреть логи, перезапустить при необходимости
self.rules	DeadMansSwitch	Система для проверки работы алертов, всегда активен	Действие не требуется