Как известно, дублирование дисковых компонентов и объектов в кластере vSAN зависит от политики Failures to tolerate (FTT) и уровня RAID, заданного для политики, которой подчиняется виртуальная машина:
Если для машин хоста задана политика с FTT=1 и RAID-1, то в общем случае, при отказе хоста ESXi, через 60 минут начинается ресинхронизация его дисковых объектов на других хостах, чтобы обеспечить выполнение политики FTT.
В случае сбоя какого-либо из компонентов дисковой подсистемы хранения кластера (от диска до хоста) механизм vSAN делит характер сбоя на 2 состояния: APD (All Paths Down) и PDL (Physical Device Loss). Об этих состояниях мы подробно писали вот тут.
Давайте посмотрим, как именно реагирует кластер vSAN на различные варианты отказов и поломок дисковой подсистемы в кластере:
Сценарий отказа
| Поведение vSAN
| Воздействие на ВМ и поведение HA |
Отказ диска в группе кэширования |
Дисковая группа помечается как "failed", и все ее компоненты перестраиваются на другой дисковой группе (rebuild). |
ВМ продолжат работать |
Отказ диска с данными (функции Dedupe и Compression включены) |
Дисковая группа помечается как "failed", и все ее компоненты перестраиваются на другой дисковой группе (rebuild). |
ВМ продолжат работать |
Отказ диска с данными (функции Dedupe и Compression отключены) |
Диск помечается как "failed", и все его компоненты перестраиваются на другом диске группы (rebuild). |
ВМ продолжат работать |
Отказ дисковой группы |
Все компоненты группы перестраиваются на другой дисковой группе (rebuild). |
ВМ продолжат работать |
Отказ контроллера RAID/HBA-карточки |
Все дисковые группы под контролем карточки HBA/RAID будут помечены как absent и будут перестроены на других дисковых группах (rebuild). |
ВМ продолжат работать |
Отказ хоста или изоляция хоста |
Компоненты на хосте будут помечены как absent и через 60 минут, если хост не вернется в онлайн, будут признаны устаревшими с последующим удалением (stale) после начал процесса перестроения дисковых объектов этого хоста (rebuild). |
ВМ других хостов продолжат работать, ВМ этого хоста будут перезапущены HA на других хостах. |
А вот графическая иллюстрация того, что происходит через 60 минут в кластере при отказе хоста ESXi. Обратите внимание, что если хост появится снова онлайн после сбоя и начала ресинхронизации (>60 минут) - его дисковые компоненты будут признаны "stale" и удалены механизмом vSAN, чтобы использовать его дисковое пространство в полном объеме.