Вчера мы писали о новых возможностях январского релиза облачного решения VMware Aria Operations. Одной из них стала высокая доступность средств мониторинга приложений High Availability for Application Monitoring, которую можно рассмотреть несколько подробнее.
Многие пользователи уже применяют решение Telegraf в VMware Aria Operations, выполняющее функции мониторинга доступности приложений и зависящее от компонентов Cloud Proxies, через которые происходит сбор данных от эндпоинтов. Сам мониторинг происходит через ARC-адаптеры приложений, которые ранее не поддерживали группы коллекторов, а Cloud Proxy был единой точкой отказа для функций application monitoring. Поэтому при выходе из строя Cloud Proxy данные от эндпоинтов не могли попадать в VMware Aria Operations.
Теперь же мониторинг приложений работает с помощью механизма Collector Groups, в которые объединены Cloud Proxy, поэтому при падении одного из них метрики будут передаваться в другие инстансы.
Первый шаг в интерфейсе - это создание Collector Group. Здесь были сделаны улучшения по добавлению новых групп и включению/выключению механизма высокой доступности из UI:
Здесь можно устанавливать используемый виртуальный IP, а также отмечать объекты Cloud Proxies, которые добавляются. Как только мы добавили новую группу, мы можем фильтровать по этим группам, когда они отображаются списком.
Можно группировать прокси по группам коллекторов и просматривать их в рамках групп, либо показывать все прокси без групп:
Также есть механизм по проверке конфигураций, если были внесены изменения в составе Collector Group. После того, как прокси были добавлены или удалены, становится активной опция "Retry Cloud Proxy Configuration", а также возможность активации/деактивации data persistence:
Также для использования HA нужно развертывание агента Telegraf. Старые версии агента не могут обрабатывать новые изменения, поэтому требуется повторное их развертывание с привязкой их к группам коллекторов. Поэтому при установке агента мы выбираем, будет ли агент обеспечивать функции высокой доступности, и если будет - то для какой группы с включенным HA он будет назначен:
После того, как мы задали все конфигурации, требуется время на то, чтобы развернуть агенты и создать все необходимые связи с возможностями восстановления после сбоя. В случае сбоя может потребоваться до трех холостых циклов сбора данных, чтобы сработало восстановление, и данные продолжили собираться. В большинстве случаев это происходит быстро, но если включена возможность data persistence, то можно потерять один цикл сбора метрик.
Больше подробностей об облачном решении VMware Aria Operations можно узнать на этой странице.