Стек журналирования
Сбор журналов осуществляется с помощью комплекта ПО td-agent + Loki + Grafana. На контроллере находится центральный сервис Loki, который собирает журналы с сервисов td-agent с каждого узла. Сервис td-agent в свою очередь собирает журналы CLI, супервизора узла, Web-сервиса узла, супервизора контроллера, Web-сервиса контроллера, системные журналы. Grafana служит для удобного просмотра в одном месте всех журналов всех узлов.
Команды CLI для работы с сервисами
Для проверки статуса сервисов в CLI есть команды:
-
Проверка статуса loki на контроллере выполняется командой CLI
services list
. -
Проверка статуса td-agent на узле выполняется командой CLI
services list
. -
Отдельно в Web-интерфейсе выведена кнопка редиректа (перенаправления) на сервис Grafana, находящийся на контроллере. По умолчанию сервис выключен, а включить (выключить) его можно из CLI командой
grafana start|stop|status
. Grafana позволяет удобно просматривать и фильтровать все журналы системы. Подробности настройки и фильтрации смотрите на официальном сайте Grafana.
Каталог хранения журналов на контроллере
/var/log/loki/
Управление временем хранения журналов узлов на контроллере
Выполняется на контроллере командой CLI loki [storage_retention|set_storage_retention]
.
Базовое значение - 2 недели.
Пример управления временем (видно, что было 128 часов и изменилось на 168).
Расчет размера каталога журналов узлов на контроллере
1 вычислительный узел (ВУ) за 1 день при штатной работе условно займет 200 Мбайт.
Пример расчета
Для 20 ВУ с временем хранения 7 дней каталог будет занимать примерно 28 Гбайт.
Пример расчета
Для 5 ВУ с временем хранения 30 дней каталог будет занимать примерно 30 Гбайт.
Пример расчета
Для 30 ВУ с временем хранения 30 дней каталог будет занимать примерно 180 Гбайт.
Итого примерный размер каталога равен
200 Мбайт * количество ВУ * количество дней
.
Очистка журналов loki
- Очистка журналов loki на контроллере выполняются командой CLI
loki clear
.