Перейти к содержанию

Диагностика при зависании, спонтанных перезагрузках или ошибках загрузки системы

Перезагрузки узлов могут быть вызваны аппаратными проблемами (паника ядра с последующим срабатыванием сторожевого таймера) или ограждением узла в рамках кластерного транспорта.

В случае паники или ограждения и не сработавшего или не настроенного сторожевого таймера узел может "подвиснуть".

В момент паники ядра производится автоматическая запись краткого сообщения в журнал ipmi SEL. Приблизительный вид такой записи (часть вывода команды ipmitool sel list):

  e6 | 12/27/2023 | 21:25:42 | OS Critical Stop #0x53 | Run-time critical stop | Asserted                                                                                 
  e7 | Linux kernel panic: System is d                                                                                                                                    
  e8 | Linux kernel panic: eadlocked o                                                                                                                                    
  e9 | Linux kernel panic: n memory 
После этой записи может следовать запись о срабатывании сторожевого таймера (в случае, если используется ipmi watchdog).

Эти записи не будут добавляться в случае переполнения журнала SEL, поэтому при переполнении и необходимости наблюдения следует очистить журнал, например, командой ipmitool sel clear.

Если перезагрузка узла вызвана ограждением другими узлами в рамках функционирования кластерного транспорта, записей SEL о панике не будет, а будет лишь запись о срабатывании сторожевого таймера (при использовании ipmi watchdog).

В случае поддержки производителем оборудования более полная информация (конец лога консоли ядра) пишется в особое хранилище pstore. Содержимое предыдущих журналов можно посмотреть при следующей перезагрузке при помощи команды CLI log pstore.

Если зависания или перезагрузки узлов происходят на регулярной основе, можно подключиться к консоли SoL, так как консольные сообщения об ошибках по умолчанию перенаправляются на последовательный порт 2. В качестве другого варианта можно при старте в загрузочном меню grub поправить строку параметров загрузки ядра, убрав или отредактировав выражение console=ttyS1,115200n8.