Более 6470 заметок о VMware, AWS, Azure, Veeam, Kubernetes и других
VM Guru / News / Сообщения об ошибках VMware HA при восстановлении виртуальных машин в случае сбоя межсайтового соединения распределенного кластера vSAN
Сообщения об ошибках VMware HA при восстановлении виртуальных машин в случае сбоя межсайтового соединения распределенного кластера vSAN
Дункан Эппинг в своем блоге описал ситуацию, когда один из администраторов распределенного кластера vSAN увидел множество сообщений об ошибках, говорящих о том, что vSphere HA не мог перезапустить определенную виртуальную машину во время сбоя межсайтового соединения ISL.
Бывает это в следующей типовой конфигурации кластера vSAN:
Предположим, что Datacenter A - это "preferred site", а Datacenter B - это "secondary site". Если между датацентром A и датацентром B происходит сбой ISL, компонент Witness, находящийся на третьей площадке, автоматически привяжет себя к датацентру A. Это означает, что ВМ в датацентре B потеряют доступ к хранилищу данных vSAN.
С точки зрения кластера HA, у датацентра A всегда будет Primary-узел (ранее он назывался Master), он же есть и у датацентра B. Первичный узел обнаружит, что есть некоторые ВМ, которые больше не работают, и он попытается перезапустить их. Он попытается сделать это на обеих площадках, и конечно, сайт, где доступ к хранилищу данных vSAN потерян, увидит, что перезапуск не удался.
А вот и важный момент, в зависимости от того, где/как сервер vCenter подключен к этим площадкам. Он может получать, а может и нет информацию об успешных и неудачных перезапусках. Иногда бывают ситуации (в зависимости от архитектуры и характера сбоя), когда сервер vCenter может общаться только с primary-узлом в датацентре B, и это приводит к сообщениям о неудачных попытках перезапуска, хотя на самом деле все ВМ были успешно перезапущены в датацентре A.
В этом случае интерфейс может дать разъяснение - он даст вам информацию о том, какой узел является первичным, и также сообщит вам о либо об "изоляции сети" (network isolation) или о "разделении сети" (network partition) в соответствующих разделах разделах панели Hosts. При сбое ISL - это, конечно же, разделение сети.