Диагностика при "зависании" процесса
Описание ошибки
Зависание процесса, спонтанные перезагрузки или ошибки загрузки системы.
Возможные причины и рекомендуемые действия
-
Перезагрузки узлов могут быть вызваны аппаратными проблемами (паника ядра с последующим срабатыванием сторожевого таймера) или ограждением узла в рамках кластерного транспорта.
В случае паники или ограждения и несработавшего или ненастроенного сторожевого таймера узел может "подвиснуть".
В момент паники ядра производится автоматическая запись краткого сообщения в журнал ipmi SEL.
Вид записи (часть вывода команды ipmitool sel list)
e6 | 12/27/2023 | 21:25:42 | OS Critical Stop #0x53 | Run-time critical stop | Asserted e7 | Linux kernel panic: System is d e8 | Linux kernel panic: eadlocked o e9 | Linux kernel panic: n memory
После этой записи может быть запись о срабатывании сторожевого таймера (в случае, если используется ipmi watchdog).
Эти записи не будут добавляться в случае переполнения журнала SEL. Поэтому при переполнении и необходимости наблюдения рекомендуется очистить журнал, например, командой
ipmitool sel clear
. -
Если перезагрузка узла вызвана ограждением другими узлами в рамках функционирования кластерного транспорта, то записей SEL о панике не будет, а будет только запись о срабатывании сторожевого таймера (при использовании ipmi watchdog).
В случае поддержки производителем оборудования более полная информация (конец лога консоли ядра) записывается в особое хранилище pstore. Содержимое предыдущих журналов можно посмотреть при следующей перезагрузке при помощи команды CLI
log pstore
. -
Если зависания или перезагрузки узлов происходят на регулярной основе, то рекомендуется один из следующих вариантов:
- Подключиться к консоли SoL, так как консольные сообщения об ошибках по умолчанию перенаправляются на последовательный порт 2.
- При старте в загрузочном меню GRUB поправить строку параметров загрузки ядра,
убрав или отредактировав выражение
console=ttyS1,115200n8
.