Общие сведения
Высокая доступность — это набор механизмов управления, позволяющий восстанавливать работоспособность ВМ без риска повреждения данных при прекращении работы узла кластера.
Механизмы ВД для платформы виртуализации SpaceVM позволяют повысить отказоустойчивость вычислительной инфраструктуры за счет возможности автоматического восстановления ВМ на резервном физическом сервере в случае сбоя или отказа сервера, на которой она выполнялась. Механизмы ВД возможно активировать на кластере до 96 физических серверов.
ВД SpaceVM отличается от аналогичных решений тем, что позволяет организовывать инфраструктуру автоматизированного восстановления ВМ на кластере из двух серверов и более (до 96), а также позволяет сохранять работоспособность при отказе более половины серверов виртуализации.
Это достигается тем, что ВД SpaceVM имеет централизованную архитектуру, встроенную в программный контроллер SpaceVM. Вследствие чего кворум (согласованность) поддерживается централизованно арбитром контроллера, а не распределенными равнозначными между собой физическими серверами. Только на тех узлах, которые находятся в состоянии кворума, возможна попытка восстановления ВМ на своих вычислительных ресурсах.
Механизм поддержания состояния кворума необходим для предотвращения проблемы с запуском нескольких
экземпляров ВМ при потере связности между работоспособными узлами, так как это может повлечь за собой,
например, повреждение данных в следствие одновременного выполнения операции записи двух экземпляров ВМ
в один участок дисковой памяти. Данная проблема известна под названием «Расщепление» или «Split Brain».
Например, достаточность количества работоспособных узлов при распределенном поддержании кворума определяется
по формуле n > N/2
, где n – количество работоспособных узлов, N – общее количество узлов в кластере.
То есть узлы считают, что находятся в состоянии кворума, если количество «видимых» узлов превышает
половину от общего количества. Таким образом, в случае отказа более половины серверов, кластер теряет кворум
и не предпринимает попыток восстановить на работоспособных серверах отказавшие ВМ.
В SpaceVM по причине поддержания кворума контроллером кластер может сохранять работоспособность, если отказало больше половины серверов. В таком случае контроллер продолжит восстановление отказавших ВМ на работоспособных серверах. В случае отказа сервера с контроллером возможно активировать резервный контроллер и механизмы ВД SpaceVM продолжат работу.