Перейти к содержанию

Состав каталога журналов

Общая информация

Расположение: /var/log.

По умолчанию под каталог журналов при установке выделяется 80 Гбайт.

80 Гбайт выделяется при условии, что размер блочного устройства, на которое установлен узел, не менее 120 Гбайт.

Ротирование

Журналы на контроллере и узлах автоматически ротируются. Это происходит каждые сутки с помощью службы logrotate. Ротации подвергаются файлы журналов, достигшие размера 100 Мбайт. Дополнительно к текущему файлу журнала хранится один несжатый и максимум 4 сжатых архива, более старые архивы удаляются. Посмотреть или изменить конфигурацию ротации можно командой log rotate config.


Состав каталога журналов

  • Журналы всех узлов (только на контроллере). Подробное описание в разделе Стек журналирования.

  • Статистика всех узлов (только на контроллере). Подробное описание в разделе Стек статистики.

  • Журналы сервисов узла: /var/log/.

  • Журналы дампов аварийных отказов процессов: /var/log/crash/.

  • Журналы общих сервисов Space: /var/log/veil/.

  • Журналы CLI Space: /var/log/veil/cli/.

    С версии SpaceVM 6.5.7 изменился формат хранения журналов CLI. Ранее журнал был один на всех пользователей и имел вид cli.log. С версии 6.5.7 журнал для каждого пользователя CLI отдельный и имеет вид cli-uid.log, где uid — user id пользователя. Список uid ssh-пользователей узла доступен по команде CLI uids.

  • Журналы супервизора узла Space: /var/log/veil/node/.

  • Журналы супервизора контроллера Space (только на контроллере): /var/log/veil/controller/.

  • Резервная копия базы данных контроллера Space (только на контроллере): /var/log/veil/controller/db_backup/.

  • Архивы журнала контроллера Space (только на контроллере): /var/log/veil/controller/journal/.


Расчет размера каталога журналов на контроллере

Размеры каталога журналов всех узлов и статистики всех узлов сильно зависят от размера инфраструктуры и времени хранения.

Базовый размер /var/log в режиме установки Preceed равен 80 Гбайт. Если оставить 10 Гбайт под журналы сервисов Space и системные журналы, останется 70 Гбайт.

Условный расчет выполняется следующим образом:

150 Mбайт * количество серверов * 15 дней + 200 Мбайт * количество серверов * 30 дней = 8250 Мбайт * количество серверов

При 70 Гбайтах получается 8 серверов. По умолчанию места хватает на 8 серверов на 15 дней хранения статистики и 30 дней хранения журналов.

Общая условная формула для расчёта:

(количество серверов * количество дней * 350 Mбайт + 10000 Мбайт) / 1000


Возможные действия при переполнении каталога журналов

  1. Проверить вывод команды df -h.

    Пример переполнения раздела журналов /var/log/

    image

  2. При необходимости переконфигурировать ротацию журналов:

    log rotate config
    

  3. Запустить в CLI команду для выполнения очистки устаревших ротированнных журналов:

    log rotate purge
    

  4. Уменьшить время хранения статистики:

    system statistics set_storage_retention
    

  5. Уменьшить время хранения журналов:

    log rotate config
    

  6. Очистить хранилище журналов с помощью CLI команды:

    log clear
    

  7. Для корректной работы может потребоваться перезапустить часть сервисов: redis, controller-db (postgresql), node-engine, controller-engine.

  8. Запустить в CLI команду:

    system autotest
    

  9. Принудительно ротировать файлы журналов можно командой:

    log rotate start
    


Возможные причины переполнения раздела журналов

Перед очисткой необходимо выяснить причины переполнения журналов и принять меры по настройке систем журналирования и ротирования или устранению причины генерации большого количества журналов.

Возможные причины:

  • Увеличилось количество узлов и, соответственно, размер журналируемых данных на контроллере. Рекомендуется уменьшить количество времени хранения журналов loki с помощью команды:

    loki [storage_retention|set_storage_retention 72]
    

  • Увеличилось количество узлов и, соответственно, размер собираемой статистики на контроллере. Рекомендуется уменьшить количество времени хранения статистики prometheus с помощью команды:

    system statistics [set_storage_retention]
    

  • Происходит непрерывное журналирование ошибок одним из компонентов ПО. Это может быть как прикладное ПО, так и ошибки оборудования, например, BMC платы или процессора. Необходимо локализовать сервис, узнать, куда записываются данные (файл журналов или syslog), и принять меры по устранению.


Перемещение на другой локальный накопитель или расширение каталога журналов

Описание соответствующих команд CLI.