Перейти к содержанию

Стек журналирования

Сбор журналов осуществляется с помощью комплекта ПО td-agent + Loki + Grafana. На контроллере находится центральный сервис Loki, который собирает журналы с сервисов td-agent с каждого узла. Сервис td-agent в свою очередь собирает журналы CLI, супервизора узла, Web-сервиса узла, супервизора контроллера, Web-сервиса контроллера, системные журналы. Grafana служит для удобного просмотра в одном месте всех журналов всех узлов.

Команды CLI для работы с сервисами

Для проверки статуса сервисов в CLI есть команды:

  • Проверка статуса loki на контроллере выполняется командой CLI services list.

  • Проверка статуса td-agent на узле выполняется командой CLI services list.

  • Отдельно в Web-интерфейсе выведена кнопка редиректа (перенаправления) на сервис Grafana, находящийся на контроллере. По умолчанию сервис выключен, а включить (выключить) его можно из CLI командой grafana start|stop|status. Grafana позволяет удобно просматривать и фильтровать все журналы системы. Подробности настройки и фильтрации смотрите на официальном сайте Grafana.

Каталог хранения журналов на контроллере

/var/log/loki/

Управление временем хранения журналов узлов на контроллере

Выполняется на контроллере командой CLI loki [storage_retention|set_storage_retention].

Базовое значение - 2 недели.

image
Пример управления временем (видно, что было 128 часов и изменилось на 168).

Расчет размера каталога журналов узлов на контроллере

1 вычислительный узел (ВУ) за 1 день при штатной работе условно займет 200 Мбайт.

Пример расчета

Для 20 ВУ с временем хранения 7 дней каталог будет занимать примерно 28 Гбайт.

Пример расчета

Для 5 ВУ с временем хранения 30 дней каталог будет занимать примерно 30 Гбайт.

Пример расчета

Для 30 ВУ с временем хранения 30 дней каталог будет занимать примерно 180 Гбайт.

Итого примерный размер каталога равен

200 Мбайт * количество ВУ * количество дней.

Очистка журналов loki

  • Очистка журналов loki на контроллере выполняются командой CLI loki clear.

Grafana

image
Grafana datasources.

image
Grafana dashboards.

image
Grafana dashboard domains.

image
Grafana dashboard nodes.

image
Grafana explore cli logs.

image
Grafana explore node logs.