Диагностика при зависании, спонтанных перезагрузках или ошибках загрузки системы
Перезагрузки узлов могут быть вызваны аппаратными проблемами (паника ядра с последующим срабатыванием сторожевого таймера) или ограждением узла в рамках кластерного транспорта.
В случае паники или ограждения и не сработавшего или не настроенного сторожевого таймера узел может "подвиснуть".
В момент паники ядра производится автоматическая запись краткого сообщения в журнал ipmi SEL. Приблизительный вид такой записи (часть вывода команды ipmitool sel list):
e6 | 12/27/2023 | 21:25:42 | OS Critical Stop #0x53 | Run-time critical stop | Asserted
e7 | Linux kernel panic: System is d
e8 | Linux kernel panic: eadlocked o
e9 | Linux kernel panic: n memory
Эти записи не будут добавляться в случае переполнения журнала SEL, поэтому при переполнении и необходимости наблюдения
следует очистить журнал, например, командой ipmitool sel clear
.
Если перезагрузка узла вызвана ограждением другими узлами в рамках функционирования кластерного транспорта, записей SEL о панике не будет, а будет лишь запись о срабатывании сторожевого таймера (при использовании ipmi watchdog).
В случае поддержки производителем оборудования более полная информация (конец лога консоли ядра) пишется
в особое хранилище pstore. Содержимое предыдущих журналов можно посмотреть при следующей перезагрузке при помощи
команды CLI log pstore
.
Если зависания или перезагрузки узлов происходят на регулярной основе,
можно подключиться к консоли SoL, так как консольные сообщения об ошибках по умолчанию
перенаправляются на последовательный порт 2.
В качестве другого варианта можно при старте в загрузочном меню grub поправить строку параметров загрузки ядра,
убрав или отредактировав выражение console=ttyS1,115200n8
.