Состав каталога журналов
Общая информация
Расположение: /var/log
По умолчанию под каталог журналов при установке выделяется 80 Гбайт.
Ротирование
Журналы на контроллере и узлах автоматически ротируются.
Состав каталога журналов
-
Журналы всех узлов (только на контроллере). Подробное описание смотрите в Стек журналирования.
-
Статистика всех узлов (только на контроллере). Подробное описание смотрите в Стек статистики.
-
Журналы сервисов узла: /var/log/.
-
Журналы дампов аварийных отказов процессов: /var/log/crash/.
-
Журналы общих сервисов Space: /var/log/veil/.
-
Журналы CLI Space: /var/log/veil/cli/.
-
Журналы супервизора узла Space: /var/log/veil/node/.
-
Журналы супервизора контроллера Space (только на контроллере): /var/log/veil/controller/.
-
Резервная копия базы данных контроллера Space (только на контроллере): /var/log/veil/controller/db_backup/.
-
Архивы журнала контроллера Space (только на контроллере): /var/log/veil/controller/journal/.
Расчет размера каталога журналов на контроллере
Сильно зависящими от размера инфраструктуры и времени хранения являются размеры каталога журналов всех узлов и статистики всех узлов.
Базовый размер /var/log в режиме установки Preceed равен 80 Гбайт. Оставляем 10 Гбайт под журналы сервисов Space и системные, остается 70 Гбайт.
Условный расчет выполняется следующим образом:
150 Mбайт * количество серверов * 15 дней + 200 Мбайт * количество серверов * 30 дней = 8250 Мбайт * количество серверов
Имея 70 Гбайт, получаем 8 серверов.
В итоге места по умолчанию хватит на 8 серверов на 15 дней хранения статистики и
30 дней хранения журналов.
Общая условная формула для расчёта:
(количество серверов * количество дней * 350 Mбайт + 10000 Мбайт) / 1000
Возможные действия при переполнении каталога журналов
-
Проверить вывод команды
df -h
. -
Запустить в CLI команду
log remove-archives
, которая рекурсивно удалит все архивы .gz. - Запустить в CLI команду
ncdu /var/log/
, найти и очистить самые крупные файлы с помощью команды, например,> /var/log/syslog
. - Уменьшить на будущее время хранения статистики.
- Уменьшить на будущее время хранения журналов.
- Очистить хранилище журналов с помощью CLI команды
system logging clear
. - Возможно, для корректной работы потребуется перезапустить часть сервисов: redis, controller-db (postgresql), node-engine, controller-engine.
- Запустить в CLI команду
system autotest
. - Принудительно ротировать файлы журналов можно командой
log rotate
.
Причины возможного переполнения раздела журналов
Желательно перед очисткой разобраться, почему переполнились журналы, и принять меры по донастройке систем журналирования и ротирования или устранению причины генерации большого количества журналов.
Возможные причины:
-
Увеличилось количество узлов, и, соответственно, размер журналируемых данных на контроллере. Рекомендуется уменьшить количество времени хранения журналов loki с помощью команды
system logging [get_days2keep|set_days2keep]
. -
Увеличилось количество узлов, и, соответственно, размер собираемой статистики на контроллере. Рекомендуется уменьшить количество времени хранения статистики prometheus с помощью команды
system statistics [set_storage_time]
. -
Какое-то ПО постоянно журналирует ошибки. Это может быть как прикладное ПО, так и ошибки оборудования, например, BMC платы или процессора. Необходимо локализовать сервис, посмотрев, какой файл журналов заполняется или syslog, и принять меры по устранению (самим или написать в техподдержку).