Перейти к содержанию

Диагностика при "зависании" процесса

Описание ошибки

Зависание процесса, спонтанные перезагрузки или ошибки загрузки системы.

Возможные причины и рекомендуемые действия

  1. Перезагрузки узлов могут быть вызваны аппаратными проблемами (паника ядра с последующим срабатыванием сторожевого таймера) или ограждением узла в рамках кластерного транспорта.

    В случае паники или ограждения и несработавшего или ненастроенного сторожевого таймера узел может "подвиснуть".

    В момент паники ядра производится автоматическая запись краткого сообщения в журнал ipmi SEL.

    Вид записи (часть вывода команды ipmitool sel list)

      e6 | 12/27/2023 | 21:25:42 | OS Critical Stop #0x53 | Run-time critical stop | Asserted                                                                                 
      e7 | Linux kernel panic: System is d                                                                                                                                    
      e8 | Linux kernel panic: eadlocked o                                                                                                                                    
      e9 | Linux kernel panic: n memory 
    

    После этой записи может быть запись о срабатывании сторожевого таймера (в случае, если используется ipmi watchdog).

    Эти записи не будут добавляться в случае переполнения журнала SEL. Поэтому при переполнении и необходимости наблюдения рекомендуется очистить журнал, например, командой ipmitool sel clear.

  2. Если перезагрузка узла вызвана ограждением другими узлами в рамках функционирования кластерного транспорта, то записей SEL о панике не будет, а будет только запись о срабатывании сторожевого таймера (при использовании ipmi watchdog).

    В случае поддержки производителем оборудования более полная информация (конец лога консоли ядра) записывается в особое хранилище pstore. Содержимое предыдущих журналов можно посмотреть при следующей перезагрузке при помощи команды CLI log pstore.

  3. Если зависания или перезагрузки узлов происходят на регулярной основе, то рекомендуется один из следующих вариантов:

    • Подключиться к консоли SoL, так как консольные сообщения об ошибках по умолчанию перенаправляются на последовательный порт 2.
    • При старте в загрузочном меню GRUB поправить строку параметров загрузки ядра, убрав или отредактировав выражение console=ttyS1,115200n8.

Процессоры.