Более 6320 заметок о VMware, AWS, Azure, Veeam, Kubernetes и других
VM Guru / Articles / Расширенные настройки (advanced settings) кластера VMware HA (High Availability) для отказоустойчивости хостов ESX и виртуальных машин.
Расширенные настройки (advanced settings) кластера VMware HA (High Availability) для отказоустойчивости хостов ESX и виртуальных машин.
Расширенные настройки (advanced settings) кластера VMware HA (High Availability) для отказоустойчивости хостов ESX и виртуальных машин.
В данной статье объединены все известные на сегодняшний день расширенные настройки кластера VMware HA для обеспечения высокой доступности сервисов в виртуальных машинах. Отказоустойчивость достигается двумя способами: средствами VMware HA на уровне хостов ESX Server (отказ оборудования) и средствами VMware VMFM (зависание гостевой операционной системы)…
Значения расширенных настроек кластера для механизма VMware HA для обеспечения отказоустойчивости хостов ESX Server.
Механизм VMware High Availability (HA) использует продукт Legato AAM, позволяющий перехватывать события отказов хостов ESX Server и перезапускать их виртуальные машины на других хостах (при этом виртуальные машины находятся на общем для всех серверов ESX хранилище). AAM устроен так, что кластер имеет 5 Primary-хостов, контролирующих этот кластер и управляющих восстановлением виртуальных машин. Таким образом, кластер VMware HA выдерживает до 4-х отказов хостов включительно.
Параметры, действующие для VMware VirtualCenter 2.0.2 и выше.
das.defaultfailoverhost = value - сервер VMware ESX (короткое имя), который будет использоваться в первую очередь для запуска виртуальных машин в случае сбоя других ESX. Если его емкости недостаточно для запуска всех машин – VMware HA будет использовать другие хосты.
das.isolationaddress[n] = value - IP-адрес, который используется для определения события изоляции хостов. По умолчанию, это шлюз (Default Gateway) сервисной консоли. Этот хост должен быть постоянно доступен. Если указано значение n, например, das.isolationaddress2, то адрес также используется на проверку события изоляции. Т.е. можно указать до десяти таких адресов (диапазон n от 1 до 10).
das.failuredetectiontime = value - значение в миллисекундах, которое отражает время, через которое VMware HA признает хост изолированным, если он не получает хартбитов (heartbeats) от других хостов и isolation address недоступен. После этого срабатывает действие isolation response, которое выставляется в параметрах кластера в целом, либо для конкретной виртуальной машины. По умолчанию, значение равно 15000 (15 секунд). Рекомендуется увеличить это время до 60000 (60 секунд), если с настройками по умолчанию возникают проблемы в работе VMware HA.
das.failuredetectioninterval = value - значение в миллисекундах, которое отражает время, через которое хосты VMware ESX Server обмениваются хартбитами. По умолчанию равно 1000 (1 секунда).
das.usedefaultisolationaddress = value - значение-флаг (true или false, по умолчанию - true), которое говорит о том, использовать ли Default Gateway как isolation address (хост, по которому определяется событие изоляции). Параметр необходимо выставить в значение false, если вы планируете использовать несколько isolation-адресов от das.isolationaddress1 до das.isolationaddress10, чтобы исключить шлюз из хостов, по которым определяется событие изоляции.
Параметры, действующие для VMware VirtualCenter 2.5.0 и выше.
das.powerOffOnIsolation = value - значение флаг (true или false), используемое для перекрытия настройки isolation response. По умолчанию установлено как true для VirtualCenter до Update 2 (действие «Power Off» - активно), и как значение false для VirtualCenter начиная с Update 2 (действие «Leave powered On» - активно).
das.vmMemoryMinMB = value - значение в мегабайтах, используемое для механизма admission control для определения размера слота. При увеличении данного значения VMware HA резервирует больше памяти на хостах ESX на случай сбоя. По умолчанию, значение равно 256 МБ.
das.vmCpuMinMHz = value - значение в мегагерцах, используемое для механизма admission control для определения размера слота. При увеличении данного значения VMware HA резервирует больше ресурсов процессора на хостах ESX на случай сбоя. По умолчанию, значение равно 256 МГц.
Параметры, действующие для VMware VirtualCenter 2.5.0 Update 2 и выше.
das.conservativeCpuSlot = value - значение-флаг (true или false), определяющее как VMware HA будет рассчитывать размер слота, влияющего на admission control. По умолчанию установлен параметр false, позволяющий менее жестко подходить к расчетам. Если установлено в значение true – механизм будет работать как в VirtualCenter 2.5.0 и VirtualCenter 2.5.0 Update 1.
das.allowVmotionNetworks = value - значение-флаг, позволяющее или не позволяющее использовать физический адаптер, по которому идет трафик VMotion (VMkernel + VMotion Enabled), для прохождения хартбитов.Используется только для VMware ESXi. По умолчанию этот параметр равен false, и сети VMotion для хартбитов не используются. Если установлен в значение true – VMware HA использует группу портов VMkernel с включенной опцией VMotion.
das.allowNetwork[n] = value – имя интерфейса сервисной консоли (например, ServiceConsole2), который будет использоваться для обмена хартбитами. n – номер, который отражает в каком порядке это будет происходить. Важно! - не ошибитесь, НЕ пишите das.allowNetworkS.
das.isolationShutdownTimeout = value - значение в секундах, которое используется как таймаут перед срабатыванием насильственного выключения виртуальной машины. В Update 2 появилась возможность выключать виртуальную машину изнутри (Shutdown OS), и в случае выставления isolation response как Shutdown VM, VMware HA пытается выключить ее таким образом в течение 300 секунд (значение по умолчанию). Обратите внимание, что значение в секундах, а не в миллисекундах.
Параметры, действующие для VMware VirtualCenter 2.5.0 Update 3 и выше.
das.bypassNetCompatCheck = value – значение-флаг (true или false, по умолчанию false), который будучи установлен в значение true позволяет обойти дополнительную проверку на совместимость с HA. В VirtualCenter Update 2 была введена проверка на совместимость подсетей, по которым ходят хартбиты. Возникала ошибка: «HA agent on in cluster in has an error Incompatible HA Network: Consider using the Advanced Cluster Settings das.allowNetwork to control network usage». Теперь, если сети считаются несовместимыми с точки зрения HA, однако маршрутизируемыми – новая опция поможет осуществить корректную настройку кластера.
das.ignoreRedundantNetWarning = value - значение-флаг (true или false, по умолчанию false), который при установке в значение false отключает нотификацию об отсутствии избыточности в сети управления («Host xxx currently has no management network redundancy»). По умолчанию установлено в значение false.
Значения расширенных настроек кластера для механизма VMware Virtual Machine Failure Monitoring (VMFM) для обеспечения отказоустойчивости на уровне одного хоста ESX Server.
В версии 3.5 виртуальной инфраструктуры VMware Virtual Infrastructure появилась новая интересная возможность под названием Virtual Machine Failure Monitoring (VMFM). Эта возможность позволяет серверу ESX следить за состоянием виртуальной машины через VMware Tools и перезапускать гостевую систему в случае ее отказа (зависание, синий экран смерти - BSOD).
Традиционным решением по высокой доступности является VMware High Availability (HA), перезапускающее виртуальные машины на других хостах в случае отказа одного из серверов VMware ESX. Возможности VMFM позволяют расширить функциональность HA на индивидуальные виртуальные машины в пределах хоста. По аналогии с HA, виртуальные машины также обмениваются «хартбитами» (heartbeats) с хостом ESX Server через VMware Tools.
das.vmFailoverEnabled = value - значение-флаг (true или false). Если установлен в значение true – механизм VMFM включен, если false – выключен. По умолчанию установлено значение false.
das.FailureInterval = value - значение в секундах, после которого виртуальная машина считается зависшей и перезагружается, если в течение этого времени не получено хартбитов. По умолчанию установлено значение 30.
das.minUptime = value - значение в секундах, отражающее время, которое дается на загрузку виртуальной машины и инициализацию VMware Tools для обмена хартбитами. По умолчанию установлено значение 120.
das.maxFailures = value - максимальное число автоматических перезагрузок из-за неполучения хартбитов, допустимое за время, указанное в параметре das.maxFailureWindow. Если значение das.maxFailureWindow равно «-1», то das.maxFailures означает абсолютное число отказов или зависаний ОС, после которого автоматические перезагрузки виртуальной машины прекращаются, и отключается VMFM. По умолчанию равно 3.
das.maxFailureWindow = value - значение, отражающее время в секундах, в течение которого рассматривается значение параметра das.maxFailures. По умолчанию равно «-1». Например, установив значение 86400, мы получим, что за сутки (86400 секунд) может произойти 3 перезапуска виртуальной машины по инициативе VMFM. Если перезагрузок будет больше, VMFM отключится. Значение параметра das.maxFailureWindow может быть также равно «-1». В этом случае время рассмотрения числа отказов для отключения VMFM – не ограничено.