Недавно компания VMware выпустила обновление VMware vSphere 7 Update 3, которое стало доступным для загрузки накануне уже прошедшей конференции VMworld Online 2021. В рамках конференции VMware рассказала о перспективах развития технологий своих серверных и десктопных продуктовых линеек, в которых ожидается много интересных нововведений в самом ближайшем будущем. Сегодня мы поговорим о трех основных анонсах, которые в будущем станут актуальны для платформы VMware vSphere, являющейся основой современных датацентров.
Итак, что заслуживает внимания из последних новостей с VMworld 2021:
Это, конечно же, самая перспективная новая возможность платформы vSphere. На рынке серверной виртуализации уже довольно давно развивается экосистема оперативной памяти различных уровней - стандартная DRAM, технология SCM (Optane и Z-SSD), модули памяти CXL, память PMEM, а также NVMe. По аналогии с сетевой инфраструктурой, где есть решение NSX для виртуализации и агрегации сетей, серверной инфраструктурой (где виртуализацией CPU занимается платформа vSphere) и инфраструктурой виртуализации хранилищ vSAN, компания VMware представила среду агрегации и виртуализации оперативной памяти - Project Capitola.
Это - так называемая Software-Defined Memory, определяемая в облаке (неважно - публичном или онпремизном) на уровне кластеров VMware vSphere под управлением vCenter:
Вся доступная память серверов виртуализации в кластере агрегируется в единый пул памяти архитектуры non-uniform memory architecture (NUMA) и разбивается на ярусы (tiers), в зависимости от характеристик производительности, которые определяются категорией железа (price /performance points), предоставляющей ресурсы RAM.
Все это позволяет динамически выделять память виртуальным машинам в рамках политик, созданных для соответствующих ярусов. Для Capitola обеспечивается поддержка большинства механизмов динамической оптимизации виртуального датацентра, таких как Distributed Resource Scheduler (DRS).
Вводить в эксплуатацию свои решения в рамках проекта Capitola компания VMware будет поэтапно: сначала появится управление памятью на уровне отдельных серверов ESXi, а потом уже на уровне кластера.
Очевидно, что такая технология требует поддержки на аппаратном уровне - и VMware уже заручилась поддержкой некоторых вендоров. В плане производителей памяти будет развиваться сотрудничество с Intel, Micron, Samsung, также будут интеграции с производителями серверов (например, Dell, HPE, Lenovo, Cisco), а также сервис-провайдерами (такими как Equinix).
Главная часть сотрудничества VMware - это взаимодействие с компанией Intel, которая предоставляет такие технологии, как Intel Optane PMem на платформах Intel Xeon.
Для получения подробностей смотрите следующие сессии с прошедшего VMworld 2021 (найти их можно тут):
[MCL2384] Big Memory – An Industry Perspective on Customer Pain Points and Potential Solutions
[MCL1453] Introducing VMware’s Project Capitola: Unbounding the "Memory Bound"
2. Развитие инициативы Project Monterey
Еще в прошлом году, в рамках конференции VMworld 2020, VMware анонсировала новую инициативу - Project Monterey. Уже в течение довольно долгого времени вендоры аппаратного обеспечения пытаются сделать высвобождение некоторых функций CPU, передав их соответствующим компонентам сервера (модуль vGPU, сетевая карта с поддержкой offload-функций и т.п.), максимально изолировав их в рамках необходимостей. Но вся эта новая аппаратная архитектура не будет хорошо работать без изменений в программной платформе.
Project Monterey - это и есть переработка архитектуры VCF таким образом, чтобы появилась нативная интеграция новых аппаратных возможностей и программных компонентов. Например, новая аппаратная технология SmartNIC позволяет обеспечить высокую производительность, безопасность по модели zero-trust и простую эксплуатацию в среде VCF. За счет технологии SmartNIC инфраструктура VCF будет поддерживать операционные системы и приложения, исполняемые на "голом железе" (то есть без гипервизора и отдельно от него).
По-сути, SmartNIC - это специальный сетевой адаптер (NIC) c модулем CPU на борту, который берет на себя offload основных функций управляющих сервисов (а именно, работу с хранилищами и сетями, а также управление самим хостом). Поскольку архитектура SmartNIC работает сейчас, в основном, на базе ARM-процессоров, то VMware для запуска гипервизора с этими картами придется подтянуть ESXi ARM Edition, который сейчас находится в статусе Tech Preview, до уровня промышленного продукта.
В данном решении будет три основных момента:
Поддержка перенесения сложных сетевых функций на аппаратный уровень, что увеличит пропускную способность и уменьшит задержки (latency).
Унифицированные операции для всех приложений, включая bare-metal операционные системы.
Модель безопасности Zero-trust security - обеспечение изоляции приложений без падения производительности. Ведь если основной ESXi для исполнения рабочих нагрузок будет скомпрометирован, то управляющий DPU сможет обнаружить ее и устранить уязвимость.
По-сути, Monterey - это продолжение развития технологии Project Pacific для контейнеров на базе виртуальной инфраструктуры, только с аппаратной точки зрения для инфраструктуры VMware Cloud Foundation (VCF).
После анонса этой инициативы в прошлом году, компания VMware расширила партнерства в этом плане с вендорами аппаратного обеспечения (Intel, NVIDIA и Pensando), а также OEM-производителями серверов (Dell Technologies, HPE и Lenovo), и уже запустила программу Early Access Program этой инициативы для крупных корпоративных клиентов.
В рамках этой программы заказчики VMware смогут совместно с ней провести пилотный проект и протестировать различные аспекты данного комплекса технологий в своем датацентре, сформулировав цели и ожидания и обсудив их с командой VMware.
На этом VMworld обсуждалось будущее инициативы Project Monterey. Она решает проблему изменяющихся угроз безопасности, которые начинают угрожать пользователям в крупных корпоративных средах, которые приобретают гибридную природу - теперь нужно обеспечивать не только безопасность собственного датацентра, но и всей объединенной облачной среды сервис-провайдера и самой компании.
Одновременно с этим растет нагрузка инфраструктурных сервисов на вычислительные ресурсы - все управляющие, защитные и сервисные системы потребляют все больше циклов CPU серверов, в результате чего по факту существующим и новым системам остается все меньше собственных ресурсов от вводим в эксплуатацию новых мощностей.
Project Monterey решает это систему за счет изменения подхода к эксплуатации ресурсов вспомогательными системами, для которых создается собственная распределенная инфраструктура (distributed control fabric), тесно интегрированная с модулями DPU (Data Processing Unit – это те же SmartNICs, о которых рассказано выше).
Эти DPU могут взять на себя часть нагрузки критичных инфраструктурных сервисов в аспекте сетевого взаимодействия, безопасности и хранилищ, которыми сейчас занимаются модули CPU. В этом случае будет ускорение работы существующих сервисов за счет офлоада их CPU-циклов на сторону оборудования.
Еще одно направление - это то, что DPU могут стать контрольной точкой управления инфраструктурными сервисами наравне с текущей инфраструктурой x86 CPU для масштабирования управляющих функций. В этом случае DPU будет работать как отдельный инстанс ESXi на сервере, жизненный цикл которого будет обеспечивать управляющие сервисы отдельно от инфраструктуры x86 CPU (это второй экземпляр ESXi на сервере). В этом случае DPU может обеспечивать работу не только серверов виртуализации, но и bare-metal нагрузок.
Для сервис-провайдеров это даст наибольшие преимущества - они наконец смогут разделить домены сервисных нагрузок для уровней клиентов и, собственно, рабочих x86-нагрузок.
Очевидно, что это потребует большого объема работы от вендоров аппаратного обеспечения, и она сейчас ведется. На данный момент в программе участвуют:
NVIDIA уже запускает тестирование Project Monterey для организаций в рамках программы Early Access Program на серверах Dell Technologies и Lenovo.
Очевидно, что Project Monterey повлияет и на архитектуру кластеров - теперь они будут объединяться посредством DPU-модулей, которые будут общаться между собой через специализированные API, а контроль инфраструктуры будет доступен уже не только на уровне серверов виртуализации, но и на уровне физических серверов (и здесь будет проделана большая работа для адаптации инфраструктуры VCF с продуктовой линейкой Tanzu):
Таким образом, путь этот будет довольно долгим, так как требует согласованной работы нескольких вендоров и затрагивает аппаратную составляющую, зато даст очень серьезные результаты в плане производительности, безопасности и управляемости больших корпоративных сред.
3. Уход от загрузки ESXi cо встроенных SD-карт серверов
Время показало, что хотя загрузка ESXi со встроенных SD-карт серверов разгружает дисковую инфраструктуру хостов, их надежность оставляет желать лучшего. Высокая интенсивность операций чтения-записи приводит к частому выходу из строя этих устройств и падению их производительности. Попросту говоря, SD-карты не были рассчитаны на столь интенсивные нагрузки. Как следствие, поддержка VMware получает большое количество запросов из-за подобного рода проблем (это же относится и USB-устройствам загрузки для ESXi).
Как знают администраторы VMware vSphere, начиная с седьмой версии платформы, структура разделов ESXi теперь выглядит следующим образом:
В новой версии гипервизора были увеличены размеры загрузочных областей, а системные разделы, которые стали расширяемыми, были консолидированы в один большой раздел ESX-OSData. При этом фиксированный размер имеет только раздел system boot - он равен 100 МБ, размер остальных разделов определяется в зависимости от размеров устройства, куда устанавливается ESXi.
Раздел ESX-OSData должен располагаться на постоянном хранилище с высоким сроком службы, так как теперь к этому разделу идет очень много операций ввода-вывода. К таким запросам, например, можно отнести опрос статуса устройства, операции резервного копирования, обновления таймстампов и прочие.
Ну а на SD-картах в связи с этим могут возникнуть две основных проблемы:
/bootbank missing - на SD-карточках, как правило, малый размер очереди, поэтому некоторые запросы ввода-вывода просто отваливаются по таймауту. Эта проблема была исправлена в vSphere 7 Update 2c (см. KB 83376), но надо понимать, что инженерам VMware приходится все больше и больше работать над решением подобного рода проблем, которых нет у традиционных хранилищ.
Повреждение раздела VMFS-L locker - из-за большого числа операций чтения SD-карты просто выходят из строя. Например, VMTools (они же VMware Tools) от виртуальных машин генерируют очень много подобных запросов. Можно переместить VMTools на RAMDisk, включив опцию ToolsRAMDisk. В vSphere 7 Update 2c эту проблему исправили (см. KB 83963), но, опять-таки, см. первый пункт - от этого легче не становится.
В итоге, VMware решила пометить возможность загрузки и хранения раздела ESX-OSData на SD-картах и USB-устройствах как deprecated в vSphere 7 Update 3. В следующей мажорной версии vSphere этой возможности просто не будет. А сейчас нужно обновить свои хост-серверы с картами SD/USB минимум на версию vSphere 7 Update 2c. Ну и надо отметить, что dual-SD устройства не выход - они создадут все те же самые описанные проблемы.
В будущем SD/USB-устройства можно будет использовать только в конфигурации 8 ГБ на таком устройстве (как boot media) + отдельный традиционный диск для хранения раздела ESX-OSData. В этом случае нужно включить опцию ToolsRAMDisk и настроить раздел /scratch на персистентном хранилище (HDD/SSD/FC-диски). Установщик просто не позволит создать раздел /scratch на SD/USB-устройстве (подробнее описано в KB 1033696). Раздел /tmp размером 250 МБ можно разместить на RAM-диске.
Итого, VMware выделила 3 варианта развертывания ESXi, два из которых уже потеряли свою актуальность, а значит надо в своей инфраструктуре от них уходить:
На этом наш обзор перспектив VMware vSphere закончен. О будущем платформы в рамках прошедшего VMware было рассказано очень много, поискать доклады на эту тему можно в онлайн-каталоге сессий прошедшего VMworld Online 2021.