Механизм VMware High Availability (HA) в VMware vSphere позволяет автоматически перезапустить виртуальные машины отказавшего сервера в кластере с общего хранилища в случае сбоя. При настройке кластера VMware HA можно использовать несколько расширенных настроек (HA Advanced Settings), которые позволяют настроить его работу наиболее гибко.
Если в процессе настройки кластера VMware HA вы сталкиваетесь с проблемами, вам может помочь информация, приведенная ниже. Для начала, какие симптомы бывают у проблем, которые можно решить, следуя советам данной заметки:
1. Ошибки при настройке VMware High Availability (HA):
HA agent on <server> in cluster <cluster> in <datacenter> has an error
Insufficient resources to satisfy HA failover level on cluster
2. Ошибки при конфигурации агента HA на хостах ESX / ESXi:
Failed to connect to host
Failed to install the VirtualCenter agent
cmd addnode failed for primary node: Internal AAM Error - agent could not start
cmd addnode failed for primary node:/opt/vmware/aam/bin/ft_startup failed
3. Ошибки типа:
Configuration of hosts IP address is inconsistent on host <hostname> address resolved to <IP> and <IP>
4. Ошибки портов:
Ports not freed after stop_ftbb
5. Первый узел кластера VMware HA настраивается корректно, но второй узел выдает ошибку на 90%
6. Сетевые настройки кластера HA настроены корректно, DNS работает и все пинги проходят нормально.
7. vSphere Client или VI Client выдают ошибку:
Internal AAM Errors - agent could not start
8. В логах aam на сервере VMware ESX в файле aam_config_util_addnode.log отображаются похожие строчки:
11/27/09 16:20:49 [myexit ] Failure location:
11/27/09 16:20:49 [myexit ] function main::myexit called from line 2199
11/27/09 16:20:49 [myexit ] function main::start_agent called from line 1168
11/27/09 16:20:49 [myexit ] function main::add_aam_node called from line 171
11/27/09 16:20:49 [myexit ] VMwareresult=failure
9. Добавление хоста в кластер вызывает ошибку в vSphere Client:
Cannot complete the configuration of the HA agent on the host. Other HA configuration error.
Алгоритм решения проблем
Проверьте release notes для текущей версии вашего продукта: vSphere 4 или VMware Infrastructure 3, там в разделах resolved problems может оказаться описание вашей ошибки.
Проверьте, что ваша лицензия позволяет использовать VMware HA. В KB 1003692 описано, как можно узнать какая возможность VMware vSphere входит в вашу лицензию. Отличия изданий VMware vSphere приведено здесь, VMware Virtual Infrastructure - здесь.
Убедитесь, что у вас корректно настроено разрешение имен для серверов VMware ESX. В KB 1003735 приведено детальное описание решения проблемы.
Убедитесь, что у вас корректно настроено разрешение имен для сервера VMware vCenter. В KB 1003713 приведено детальное описание решения проблемы.
Убедитесь, что время на хостах VMware ESX настроено корректно. Для настройки службы ntp на хостах VMware ESX смотрите KB 1339.
Убедитесь, что между хостами ESX и сервером vCenter есть соединение (KB 1003486).
Убедитесь что есть соединение с адресом, который указан в качестве isolation response address.
Убедитесь, что необходимые порты открыты на хостах VMware ESX / ESXi (KB 1003487).
Посмотрите, не установили ли вы некорректные настройки кластера VMware HA Advanced Settings (KB 1006421).
Убедитесь, что на хостах VMware ESX установлена корректная версия HA-агента. О том, как вручную переустановить агента VMware HA на хост-серверах, написано в KB 1003714.
Убедитесь, что служба VirtualCenter Server Service была перезагружена после изменения вами настроек. Для перезапуска службы используйте указания KB 1003895.
Помните, что 90% всех проблем с VMware HA - это проблемы разрешения имен (DNS) и глючность агента VMware HA, который можно переустановить, выбрав пунк Reconfigure for VMware HA из контекстного меню хост-сервера: