В рамках прошедшей недавно конференции Explore 2023 компания VMware сделала немало интересных анонсов продуктов и технологий, которые появятся в ближайшем будущем. Одной из главных новостей стало объявление о скором выпуске второго пакета обновлений флагманской платформы виртуализации VMware vSphere 8 Update 2.
Во время конференции стало доступно видео, вкратце рассказывающее обо всех нововведениях платформы, где можно увидеть большой набор новой функциональности, особенно удобной для администраторов крупных виртуальных инфраструктур:
Сегодня мы рассмотрим ту ее часть, которая касается аппаратного обеспечения, а особенно нагрузок, использующих модули GPU для задач искусственного интеллекта, графических приложений и других программ, активно использующих ресурсы графического адаптера. Также мы посмотрим и на другие улучшения в части оборудования.
С появлением ChatGPT в ноябре 2022 года в индустрии возник огромный интерес к генеративному AI. К январю 2023 года ChatGPT стал самым быстрорастущим потребительским программным приложением в истории с более чем 100 миллионами пользователей. В результате GenAI теперь является стратегическим приоритетом для многих организаций. vSphere всегда была на переднем крае ИИ с момента введения программы AI-Ready Enterprise Platform в марте 2021 года, и с этим выпуском VMware продолжает масштабировать и совершенствовать технологию виртуализации GPU. Наряду с улучшениями, связанными с ИИ, VMware также расширяет доступность технологии Data Processing Unit (DPU) на большем количестве аппаратных платформ, чтобы клиенты могли ощутить эти преимущества производительности.
1. Виртуальное аппаратное обеспечение (Virtual Hardware) версии 21
Начнем мы, как ни странно, с улучшений программной части, но затрагивающих и аппаратную часть в итоге.
В новой, 21-й, версии Virtual Hardware виртуальные машины получили следующие расширения своих возможностей:
Увеличение максимального количества устройств vGPU на VM с 8 до 16
Можно подключать до 256 дисков NVMe к ВМ
Поддерживается спецификация NVMe 1.3 для пользователей Windows и кластерное переключение при отказе Windows Server с дисками NVMe
Проверки на совместимость для новых ОС: Red Hat 10, Oracle 10, Debian 13 и FreeBSD 15
Помните, чтобы полностью использовать эти возможности, вам нужны как vSphere 8 update 2, так и Virtual Hardware 21
Тяжелые рабочие нагрузки (особенно AI) продолжают требовать все больше и больше мощности GPU. В этом релизе было увеличено максимальное количество устройств vGPU, которое может быть назначено одной ВМ, до 16, что удвоило верхний предел производительности для больших рабочих нагрузок. Для ИИ это означает, что вы можете сократить время обучения моделей AI/ML и запускать модели самого высокого класса с большими наборами данных.
Важно также отметить, что в Update 1 VMware реализовала трансляцию хранилищ виртуальных машин с поддержкой полной обратной совместимости. VMware сделала так, что при любом сочетании виртуальных машин, использующих SCSI или контроллер vNVMe, и целевого устройства, являющегося SCSI или NVMe, можно транслировать путь в стеке хранения. Это дает такой дизайн, который позволяет клиентам переходить между SCSI- и NVMe-хранилищами без необходимости изменения контроллера хранилищ для виртуальной машины. Аналогично, если виртуальная машина имеет контроллер SCSI или vNVMe, он будет работать как на SCSI-, так и на NVMeoF-хранилищах.
<>Теперь в Update 2 появилась возможность подключать к ВМ до 256 дисков NVMe, что удовлетворяет потребности практически всех корпоративных заказчиков VMware.
2. Размещение рабочих нагрузок и балансировка нагрузки с учетом GPU в DRS
В прошлых релизах vSphere компания VMware добавила возможность использования технологии горячей миграции vMotion для рабочих нагрузок, использующих ресурсы GPU, что стало большим шагом вперед для пользователей, применяющих виртуальные машины для задач искусственного интеллекта и машинного обучения – ведь им нужно перемещать их для корректной балансировки и равномерной загрузки аппаратных ресурсов.
При этом VMware, на основе обратной связи от пользователей, обнаружила сценарии, в которых рабочие нагрузки могут не полностью использовать доступные ресурсы GPU. Чтобы решить эти проблемы, был улучшен механизм балансировки нагрузки. Теперь DRS учитывает размеры профилей vGPU и старается объединять vGPU одного размера на одном хосте. Это также помогает с начальным размещением при включении машин с поддержкой GPU, что позволяет избежать потери емкости GPU из-за фрагментации.
Посмотрите на эту картинку. Изначально у нас было три машины, каждая из которых использовала 2 модуля GPU из 4, доступных на каждом хосте. В прошлых релизах при появлении тяжелой рабочей нагрузки мощностью в 4 GPU такая ВМ просто бы не запустилась ввиду отсутствия доступной емкости. Теперь же одна из 2-GPU машин будет «подвинута» с помощью технологии vMotion механизмом DRS на другой хост так, чтобы обеспечить функционирование большой нагрузки:
То есть, размещение рабочей нагрузки и балансировка нагрузки теперь учитывает количество доступных физических GPU в кластере, а DRS будет стараться размещать рабочие нагрузки с аналогичными требованиями к профилю на одном хосте, если они туда помещаются. Это повышает использование ресурсов GPU, что снижает затраты, так как для достижения желаемого уровня производительности требуется меньше аппаратных ресурсов графического модуля.
3. Quality of Service для GPU-нагрузок
При использовании тяжелых нагрузок с vGPU "время приостановки" (время, когда виртуальная машина временно не исполняет операции – Stun Time) во время миграции может быть значительным. Обновление vSphere 8 Update 2 предоставляет администраторам прекрасный инструмент для оценки максимально возможного времени приостановки ВМ с поддержкой vGPU.
Это определяется на основе скорости сети и размера памяти vGPU:
Теперь у вас есть референсная таблица, из которой вы можете узнать, насколько приостановится виртуальная машина, в зависимости от скорости канала vMotion между хостами ESXi и размера Frame Buffer в гигабайтах:
4. Поддержка VM Service для машин с Windows и GPU
VM Service - это возможности развертывания ВМ с помощью команд и API, что позволяет создавать комбинации из ВМ и контейнеров в единой среде.
VM Service реализует отличный способ предоставления ВМ в режиме самообслуживания, но в прошлом он был ограничен только машинами Linux и отдельными конфигурациями. Update 2 убирает эти ограничения.
VM Service теперь может быть использован для развертывания машин на Windows наряду с Linux. Также ВМ может быть развернута с любым виртуальным железом, настройками безопасности, устройствами, поддержкой multi-NIC, и устройствами passthrough, которые поддерживаются в vSphere, что позволяет достичь полного соответствия традиционным машинам vSphere. Важно отметить, что теперь VM Service может быть использован в том числе для развертывания рабочих ВМ, которые требуют GPU.
5. Расширение поддержки DPU, включая серверное оборудование Lenovo и Fujitsu
Год назад, с появлением vSphere 8, VMware представила поддержку DPU, позволяя клиентам переносить инфраструктурные рабочие нагрузки с CPU на специализированный модуль DPU, тем самым повышая производительность бизнес-нагрузок.
vSphere 8 получила поддержку DPU в vSphere Lifecycle Manager для автоматического обновления гипервизоров ESXi в этих серверных системах. При этом поддерживался стейджинг апдейтов и апгрейдов, параллельное накатывание обновлений и работа со standalone-хостами, чтобы обеспечить полную идентичность функций vLCM и устаревшего Update Manager.
vSphere Lifecycle Manager может отправлять апдейты на стейджинг заранее для последующего накатывания в производственной среде. Стейджинг апдейтов можно сделать, не переводя хосты в режим обслуживания (maintenance mode). Обновления микрокода (Firmware) также можно отправлять на стейджинг за счет интеграции с Hardware Support Manager.
С релизом vSphere 8 Update 2 клиенты, использующие серверы Lenovo или Fujitsu, теперь смогут использовать новые функции интеграции vSphere DPU и его преимущества в производительности.
Технология DPU Performance теперь может использоваться для устройств Intel Sapphire Rapids CPU и NVIDIA Bluefield-2 DPU.
В дальнейшем VMware планирует все больше расширять поддержку технологии DPU в серверном оборудовании различных вендоров, так что если ваш сервер еще не поддерживается – нужно просто немного подождать.
В итоге
Компания VMware идет в ногу со временем и понимает растущие потребности пользователей в применении новых задач корпоративного AI. В будущем эти системы будут очень распространены, поэтому инфраструктуру для этого нужно подготовить заранее, чем, собственно, занимаются сейчас как VMware, так и производители серверов. Новые возможности в плане операций с GPU и поддержка технологии DPU для новых систем - тому подтверждение.
В будущем мы увидим все более тесную интеграцию платформы vSphere с новыми аппаратными технологиями, а также все больший фокус на поддержку рабочих нагрузок, обеспечивающих работу AI и машинного обучения.