Все самое нужное о виртуализации и облаках

Более 6530 заметок о VMware, AWS, Azure, Veeam, Kubernetes и других

VM Guru / News / Улучшения VMware vSAN 7.0 Update 3 - пересчет голосов для обеспечения кворума при последовательных отказах

Улучшения VMware vSAN 7.0 Update 3 - пересчет голосов для обеспечения кворума при последовательных отказах

24/05/2022

Поддержите VM Guru!

USDT / TRC20, адрес: TCDP7d9hBM4dhU2mBt5oX2x5REPtq9QdU1

Пост:

Одним из нововведений новой версии решения для обеспечения катастрофоустойчивости виртуальной инфраструктуры хранения VMware vSAN 7.0 Update 3 стал улучшенный механизм по обработке последовательных отказов. Называется он Enhanced Data Durability.

Он позволяет еще больше защитить кластер хранилищ от аварий и сбоев, которые могут происходить не в один момент, а друг за другом на протяжении некоторого времени.

Нужен он для того, чтобы в ситуации, когда отказывает одна из площадок vSAN, а потом и компонент Witness (например, в случае массового сбоя сети или аварии другой природы), хосты выжившего кластера могли продолжить работу.

Проиллюстрируем это на примере, который привел Дункан Эппинг. Предположим, у нас есть вот такая инфраструктура:

И вот у нас отказывает полностью один из датацентров. В консоли RVC мы увидим следующее:

  VM R1-R1:

  Disk backing:

  [vsanDatastore] 0b013262-0c30-a8c4-a043-005056968de9/R1-R1.vmx

  RAID_1

  RAID_1

  Component: 0b013262-c2da-84c5-1eee-005056968de9 , host: 10.202.25.221

  votes: 1, usage: 0.1 GB, proxy component: false)

  Component: 0b013262-3acf-88c5-a7ff-005056968de9 , host: 10.202.25.201

  votes: 1, usage: 0.1 GB, proxy component: false)

  RAID_1

  Component: 0b013262-a687-8bc5-7d63-005056968de9 , host: 10.202.25.238

  votes: 1, usage: 0.1 GB, proxy component: true)

  Component: 0b013262-3cef-8dc5-9cc1-005056968de9 , host: 10.202.25.236

  votes: 1, usage: 0.1 GB, proxy component: true)

  Witness: 0b013262-4aa2-90c5-9504-005056968de9 , host: 10.202.25.231

  votes: 3, usage: 0.0 GB, proxy component: false)

  Witness: 47123362-c8ae-5aa4-dd53-005056962c93 , host: 10.202.25.214

  votes: 1, usage: 0.0 GB, proxy component: false)

  Witness: 0b013262-5616-95c5-8b52-005056968de9 , host: 10.202.25.228

  votes: 1, usage: 0.0 GB, proxy component: false)

Здесь мы видим, что у нас 1 голос на каждый из дисковых компонентов основной площадки (итого 2), 3 голоса на Witness и 2 голоса на резервной площадке.

Теперь представим, что все хосты резервной площадки отказывают полностью. У нас остается 2+3=5 голосов из 7, то есть кворум есть, все в порядке (для обеспечения кворума нужно больше 50% голосов). Но вот если у нас после этого откажет компонент Witness, имеющий 3 голоса, то у нас останется только 2 голоса из 7, кворума не будет - и это может привести к проблемам в кластере.

Для этого в vSAN 7 Update 3 сделали механизм пересчета голосов. Посмотрим на то, как выглядит картина через 5 минут после отказа резервной площадки в консоли RVC:

  VM R1-R1:

  Disk backing:

  [vsanDatastore] 0b013262-0c30-a8c4-a043-005056968de9/R1-R1.vmx

  RAID_1

  RAID_1

  Component: 0b013262-c2da-84c5-1eee-005056968de9 , host: 10.202.25.221

  votes: 3, usage: 0.1 GB, proxy component: false)

  Component: 0b013262-3acf-88c5-a7ff-005056968de9 , host: 10.202.25.201

  votes: 3, usage: 0.1 GB, proxy component: false)

  RAID_1

  Component: 0b013262-a687-8bc5-7d63-005056968de9 , host: 10.202.25.238

  votes: 1, usage: 0.1 GB, proxy component: false)

  Component: 0b013262-3cef-8dc5-9cc1-005056968de9 , host: 10.202.25.236

  votes: 1, usage: 0.1 GB, proxy component: false)

  Witness: 0b013262-4aa2-90c5-9504-005056968de9 , host: 10.202.25.231

  votes: 1, usage: 0.0 GB, proxy component: false)

  Witness: 47123362-c8ae-5aa4-dd53-005056962c93 , host: 10.202.25.214

  votes: 3, usage: 0.0 GB, proxy component: false)

Итак, мы видим, что каждый из дисковых компонентов получил по 3 голоса. Компонент Witness вне площадок получил 1 голос вместо 3, а компонент Witness, поднявшийся на основной площадке также получил 3 голоса.

Теперь, если внешний компонент Witness упадет, то кворум кластера все равно будет соблюден, а машины продолжат исполняться на основной площадке. Если же резервная площадка снова войдет в строй, то голоса в кластере снова будут пересчитаны таким образом, чтобы соблюсти статус кво.

Как долго происходит пересчет голосов в кластере? Это зависит от количества дисковых объектов, голоса которых учитываются. В среднем на одну ВМ приходится по несколько секунд вычислений, поэтому общая реконфигурация состава голосов может занять до 5 минут. Зато в этом случае кластер будет более устойчив к отказам, которые в реальной жизни могут происходить один за другим.