Общие сведения

Высокая доступность (ВД) — это набор механизмов управления, позволяющий восстанавливать работоспособность ВМ без риска повреждения данных при прекращении работы узла кластера.

Особенности реализации ВД в SpaceVM

Механизмы ВД для платформы виртуализации SpaceVM позволяют повысить отказоустойчивость вычислительной инфраструктуры за счет возможности автоматического восстановления ВМ на резервном физическом сервере в случае сбоя или отказа сервера, на котором выполнялась ВМ. Механизмы ВД возможно активировать на кластере размером до 96 физических серверов.

ВД SpaceVM отличается от аналогичных решений тем, что позволяет организовывать инфраструктуру автоматизированного восстановления ВМ на кластере из двух серверов и более (до 96). Также благодаря поддержанию кворума (согласованности) контроллером механизм ВД позволяет сохранять работоспособность при отказе более половины серверов виртуализации. В этом случае контроллер продолжает восстановление отказавших ВМ на работоспособных серверах. В случае отказа сервера с контроллером возможно активировать резервный контроллер и механизмы ВД SpaceVM продолжат работу.

Архитектурные особенности ВД в SpaceVM

Сохранение работоспособности достигается за счёт централизованной архитектуры SpaceVM, встроенной в его программный контроллер. Кворум поддерживается централизованно арбитром контроллера, а не распределенными равнозначными между собой физическими серверами. Попытка восстановления ВМ возможна только на узлах, находящихся в состоянии кворума.

Защита от Split Brain

Механизм поддержания состояния кворума необходим для предотвращения одновременного запуска нескольких экземпляров ВМ при потере связности между работоспособными узлами. Это предотвращает риск повреждения данных из-за конкурирующей записи двух экземпляров ВМ в одну область диска — проблему, известную как «Расщепление» или «Split Brain».

Достаточность количества работоспособных узлов при распределенном поддержании кворума определяется по формуле n > N/2, где n – количество работоспособных узлов, N – общее количество узлов в кластере. Узлы считаются, находящимися в состоянии кворума, если количество «видимых» узлов превышает половину от общего количества. Таким образом, при отказе более половины серверов кластер теряет кворум и прекращает попытки восстановления отказавших ВМ на рабочих узлах.