Современные задачи искусственного интеллекта (AI) и машинного обучения (ML) требуют высокопроизводительных решений при минимизации затрат на инфраструктуру, поскольку оборудование для таких нагрузок стоит дорого. Использование графических процессоров NVIDIA в сочетании с технологией NVIDIA AI Enterprise и платформой VMware Cloud Foundation (VCF) позволяет компаниям...
Компания Broadcom выпустила интересное видео, где Mark Achtemichuk и Uday Kulkurne обсуждают оптимизацию AI/ML нагрузок с использованием аппаратной платформы NVIDIA GPU и решения VMware Cloud Foundation:
Производительность и эффективность виртуализации графических процессоров (GPU) является одним из ключевых направлений для разработки решений в области искусственного интеллекта (AI) и машинного обучения (ML).
Виртуализация AI/ML задач, работающих на GPU, представляет собой вызов, так как традиционно считается, что виртуализация может значительно снижать производительность по сравнению с «чистой» конфигурацией на физическом оборудовании (bare metal). Однако VMware Cloud Foundation демонстрирует почти аналогичную производительность с минимальными потерями за счет умной виртуализации и использования технологий NVIDIA.
Рассматриваемые в данном видо графические процессоры от NVIDIA включают модели H100, A100 и L4, каждая из которых имеет уникальные характеристики для обработки AI/ML задач. Например, H100 оснащен 80 миллиардами транзисторов и способен ускорять работу трансформеров (на основе архитектуры GPT) в шесть раз. Особенностью H100 является возможность разделения GPU на несколько независимых сегментов, что позволяет обрабатывать задачи параллельно без взаимного влияния. A100 и L4 также обладают мощными возможностями для AI/ML, с небольшими различиями в спецификациях и применимости для графических задач и машинного обучения.
VMware Cloud Foundation (VCF) позволяет использовать все преимущества виртуализации, обеспечивая при этом производительность, близкую к физическому оборудованию. Одна из ключевых возможностей — это поддержка дробных виртуальных GPU (vGPU) с изоляцией, что позволяет безопасно распределять ресурсы GPU между несколькими виртуальными машинами.
Используя виртуализированные конфигурации на базе VCF и NVIDIA GPU, компании могут значительно снизить общие затраты на владение инфраструктурой (TCO). VMware Cloud Foundation позволяет консолидировать несколько виртуальных машин и задач на одном физическом хосте без существенной потери производительности. Это особенно важно в условиях современных датацентров, где необходимо максимизировать эффективность использования ресурсов.
В серии тестов было проверено, как виртуализированные GPU справляются с различными AI/ML задачами по сравнению с физическим оборудованием. Используя стандартные бенчмарки, такие как ML Commons, было показано, что виртуализированные GPU демонстрируют производительность от 95% до 104% по сравнению с bare metal конфигурациями в режиме инференса (вычисления запросов) и около 92-98% в режиме обучения. Это означает, что даже в виртуализированной среде можно добиться почти той же скорости, что и при использовании физического оборудования, а в некоторых случаях — даже превзойти её.
Основное преимущество использования VMware Cloud Foundation с NVIDIA GPU заключается в гибкости и экономии ресурсов. Виртуализированные среды позволяют разделять ресурсы GPU между множеством задач, что позволяет более эффективно использовать доступные мощности. Это особенно важно для компаний, стремящихся к оптимизации капитальных затрат на инфраструктуру и повышению эффективности использования серверных мощностей.
В рамках анонсов конференции Explore 2024, касающихся VMware Private AI Foundation с NVIDIA (PAIF-N), в компании VMware решили обновить Improved RAG Starter Pack v2.0, чтобы помочь клиентам воспользоваться новейшими микросервисами для инференса NVIDIA (модули NIM), которые обеспечивают атрибуты промышленного уровня (надёжность, масштабируемость и безопасность) для языковых моделей, используемых в системах Retrieval Augmented Generation (RAG).
Следуя духу оригинального Improved RAG Starter Pack (v1.0), Broadcom предлагает серию Jupyter-блокнотов, реализующих улучшенные методы поиска. Эти методы обогащают большие языковые модели (LLMs) актуальными и достоверными контекстами, помогая им генерировать более точные и надёжные ответы на вопросы, связанные с специализированными знаниями, которые могут не быть частью их предобученного датасета. Благодаря этому можно эффективно снизить "галлюцинации" LLM и повысить надёжность приложений, управляемых AI.
Новые функции обновлённого Improved RAG Starter Pack:
Используются NVIDIA NIMs для LLM, текстовых встраиваний и ранжирования текстов — трёх основных языковых моделей, которые питают RAG-пайплайны.
Обновили LlamaIndex до версии v0.11.1.
Используются Meta-Llama3-8b-Instruct в качестве генератора LLM, который управляет RAG-пайплайном.
Заменили OpenAI GPT-4 на Meta-Llama-3-70b-Instruct как движок для DeepEval для выполнения двух ключевых задач, связанных с оценкой RAG-пайплайнов:
Для оценки ("судейства") RAG-пайплайнов путём оценки ответов пайплайна на запросы, извлечённые из набора для оценки. Каждый ответ оценивается по нескольким метрикам DeepEval.
Анатомия улучшенного RAG Starter Pack
Каталог репозитория GitHub, содержащий этот стартовый пакет, предоставляет пошаговое руководство по внедрению различных элементов стандартных систем RAG.
Помимо NVIDIA NIM, системы RAG используют такие популярные технологии, как LlamaIndex (фреймворк для разработки приложений на основе LLM), vLLM (сервис для инференса LLM) и PostgreSQL с PGVector (масштабируемая и надёжная векторная база данных, которую можно развернуть с помощью VMware Data Services Manager).
Все начинается с реализации стандартного RAG-пайплайна. Далее используется база знаний RAG для синтеза оценочного набора данных для оценки системы RAG. Затем улучшается стандартная система RAG за счет добавления более сложных методов поиска, которые будут подробно описаны далее. Наконец, различные подходы RAG оцениваются с помощью DeepEval и сравниваются для выявления их плюсов и минусов.
Структура каталога организована следующим образом.
Теперь давайте обсудим содержание каждой секции.
Настройка сервисов NIM и vLLM (00)
Эта секция содержит инструкции и скрипты для Linux shell, которые необходимы для развертывания сервисов NVIDIA NIM и vLLM, требуемых для реализации RAG-пайплайнов и их оценки.
Инициализация PGVector (01)
Эта секция предлагает несколько альтернатив для развертывания PostgreSQL с PGVector. PGVector — это векторное хранилище, которое будет использоваться LlamaIndex для хранения базы знаний (текстов, встраиваний и метаданных), что позволит расширить знания LLM и обеспечить более точные ответы на запросы пользователей.
Загрузка документов базы знаний (02)
Каждый демо-пример RAG и введение в RAG используют базу знаний для расширения возможностей генерации LLM при вопросах, касающихся областей знаний, которые могут не входить в предобученные данные моделей. Для этого стартового пакета VMware выбрала десять документов из коллекции электронных книг по истории от NASA, предлагая таким образом вариант типичных документов, часто используемых в туториалах по RAG.
Загрузка документов в систему (03)
Эта секция содержит начальный Jupyter-блокнот, где используется LlamaIndex для обработки электронных книг (формат PDF), их разбиения на части (узлы LlamaIndex), кодирования каждого узла в виде длинного вектора (встраивания) и хранения этих векторов в PostgreSQL с PGVector, который действует как наш векторный индекс и движок запросов. На следующем изображении показан процесс загрузки документов в систему.
После того как PGVector загрузит узлы, содержащие метаданные, текстовые фрагменты и их соответствующие встраивания, он сможет предоставить базу знаний для LLM, которая будет генерировать ответы на основе этой базы знаний (в нашем случае это книги по истории от NASA).
Генерация оценочного набора данных (04)
Jupyter-блокнот в этой папке демонстрирует использование Synthesizer из DeepEval для создания набора данных вопросов и ответов, который впоследствии будет использоваться метриками DeepEval для оценки качества RAG-пайплайнов. Это позволит определить, как изменения ключевых компонентов пайплайна RAG, таких как LLM, модели встраиваний, модели повторного ранжирования, векторные хранилища и алгоритмы поиска, влияют на качество генерации. Для синтетической генерации оценочного набора данных используется модель Meta-Llama-3-70b-Instruct.
Реализация вариантов RAG (05)
В этом каталоге содержатся три подкаталога, каждый из которых включает Jupyter-блокнот, исследующий один из следующих вариантов реализации RAG-пайплайна на основе LlamaIndex и открытых LLM, обслуживаемых через vLLM:
Стандартный RAG-пайплайн + повторное ранжирование: этот блокнот реализует стандартный RAG-пайплайн с использованием LlamaIndex, включая финальный этап повторного ранжирования, который управляется моделью ранжирования. В отличие от модели встраиваний, повторное ранжирование использует вопросы и документы в качестве входных данных и напрямую выдаёт степень схожести, а не встраивание. Вы можете получить оценку релевантности, вводя запрос и отрывок в модель повторного ранжирования. VMware использует следующие микросервисы NVIDIA (NIM) для работы RAG-системы:
Генератор LLM для RAG: Meta-Llama-3-8b-Instruct
Модель встраиваний для RAG: nvidia/nv-embedqa-e5-v5
Модель повторного ранжирования для RAG: nvidia/nv-rerankqa-mistral-4b-v3
Следующая картинка иллюстрирует, как работает эта RAG-система.
Извлечение с использованием окон предложений:
Метод извлечения с использованием окон фраз (Sentence Window Retrieval, SWR) улучшает точность и релевантность извлечения информации в RAG-пайплайнах, фокусируясь на определённом окне фраз вокруг целевой фразы. Такой подход повышает точность за счёт фильтрации нерелевантной информации и повышает эффективность, сокращая объём текста, обрабатываемого во время поиска.
Разработчики могут регулировать размер этого окна, чтобы адаптировать поиск к своим конкретным задачам. Однако у метода есть потенциальные недостатки: узкая фокусировка может привести к упущению важной информации в соседнем тексте, что делает выбор подходящего размера окна контекста критически важным для оптимизации как точности, так и полноты процесса поиска. Jupyter-блокнот в этой директории использует реализацию SWR от LlamaIndex через модуль Sentence Window Node Parsing, который разбивает документ на узлы, каждый из которых представляет собой фразу. Каждый узел содержит окно из соседних фраз в метаданных узлов. Этот список узлов повторно ранжируется перед передачей LLM для генерации ответа на запрос на основе данных из узлов.
Автоматическое слияние при извлечении:
Метод автоматического слияния при извлечении — это подход RAG, разработанный для решения проблемы фрагментации контекста в языковых моделях, особенно когда традиционные процессы поиска создают разрозненные фрагменты текста. Этот метод вводит иерархическую структуру, где меньшие текстовые фрагменты связаны с более крупными родительскими блоками. В процессе извлечения, если определённый порог меньших фрагментов из одного родительского блока достигнут, они автоматически сливаются. Такой подход гарантирует, что система собирает более крупные, связные родительские блоки, вместо извлечения разрозненных фрагментов. Ноутбук в этой директории использует AutoMergingRetriever от LlamaIndex для реализации этого варианта RAG.
Оценка RAG-пайплайна (06)
Эта папка содержит Jupyter-блокнот, который использует DeepEval для оценки ранее реализованных RAG-пайплайнов. Для этой цели DeepEval использует оценочный набор данных, сгенерированный на предыдущем шаге. Вот краткое описание метрик DeepEval, используемых для сравнения различных реализаций RAG-пайплайнов. Обратите внимание, что алгоритмы метрик DeepEval могут объяснить, почему LLM присвоил каждую оценку. В нашем случае эта функция включена, и вы сможете увидеть её работу.
Contextual Precision оценивает ретривер вашего RAG-пайплайна, проверяя, расположены ли узлы в вашем контексте поиска, которые релевантны данному запросу, выше, чем нерелевантные узлы.
Faithfulness оценивает качество генератора вашего RAG-пайплайна, проверяя, соответствует ли фактический вывод содержимому вашего контекста поиска.
Contextual Recall оценивает качество ретривера вашего RAG-пайплайна, проверяя, насколько контекст поиска соответствует ожидаемому результату.
Answer Relevancy измеряет, насколько релевантен фактический вывод вашего RAG-пайплайна по отношению к данному запросу.
Hallucination — эта метрика определяет, генерирует ли ваш LLM фактически корректную информацию, сравнивая фактический вывод с предоставленным контекстом. Это фундаментальная метрика, так как одной из главных целей RAG-пайплайнов является помощь LLM в генерации точных, актуальных и фактических ответов на запросы пользователей.
Оценки DeepEval были выполнены с использованием следующей конфигурации:
LLM-оценщик, оценивающий метрики DeepEval: Meta-Llama-3-70b-Instruct, работающая на vLLM в режиме guided-JSON.
Следующая таблица показывает результаты оценки из одного из экспериментов VMware, который включал более 40 пар вопросов и ответов.
Следующая диаграмма представляет другой ракурс взгляда на предыдущий результат:
Как показывает таблица, конкретная реализация RAG может показывать лучшие результаты по определённым метрикам, что указывает на их применимость к различным сценариям использования. Кроме того, метрики оценки помогают определить, какие компоненты ваших RAG-пайплайнов нуждаются в корректировке для повышения общей производительности системы.
Заключение
Обновлённый RAG Starter Pack предоставляет ценный инструментарий для тех, кто внедряет системы RAG, включая серию хорошо документированных Python-блокнотов, предназначенных для улучшения LLM за счёт углубления контекстного понимания. В этот пакет включены передовые методы поиска и такие инструменты, как DeepEval, для оценки системы, которые помогают снизить такие проблемы, как "галлюцинации" LLM, и повысить надёжность ответов AI. Репозиторий на GitHub хорошо структурирован и предлагает пользователям понятное пошаговое руководство, которому легко следовать, даже если вы не являетесь специалистом в области данных. Клиенты и партнёры Broadcom, использующие PAIF-N, найдут этот пакет полезным для запуска приложений на базе генеративного AI в инфраструктурах VMware Cloud Foundation. Ожидайте новых статей, в которых VMware рассмотрит ключевые аспекты безопасности и защиты в производственных RAG-пайплайнах.
Недавно на конференции NVIDIA GTC 2024 было объявлено о начальной доступности VMware Private AI Foundation with NVIDIA, что знаменует начало эпохи AI в датацентрах крупных заказчиков. VMware Private AI Foundation with NVIDIA позволяет пользователям запускать AI-нагрузки на собственной инфраструктуре, используя VMware Cloud Foundation (VCF) и экосистему программного обеспечения и графических процессоров NVIDIA.
Эта совместная платформа не только поддерживает более безопасные AI-нагрузки, но также добавляет гибкость и операционную эффективность при сохранении максимальной производительности. Кроме того, VCF добавляет уровень автоматизации, упрощающий развертывание виртуальных машин дата-сайентистами для глубокого обучения. Подробнее о данной процедуре написано здесь.
Хотя Broadcom и NVIDIA обеспечивают основные потребности в программном обеспечении, выбор лучшего оборудования для выполнения рабочих нагрузок Private AI также является ключевым элементом успешной реализации проектов в области AI. VMware сотрудничает с такими производителями серверов, как Dell, Fujitsu, Hitachi, HPE, Lenovo и Supermicro, чтобы составить исчерпывающий список поддерживаемых платформ, оптимизированных для работы с графическими процессорами NVIDIA и VMware Cloud Foundation. Хотя некоторые AI-задачи могут выполняться и на более старых графических процессорах NVIDIA A100, в настоящее время рекомендуется использовать NVIDIA L40 и H100 для современных AI-нагрузок, чтобы достичь оптимальной производительности и эффективности.
Серверы, перечисленные ниже, сертифицированы специально для VMware Private AI Foundation с NVIDIA. Процесс сертификации включает сертификацию партнера по графическим процессорам с аппаратной платформой, а также поддержку общего назначения графических процессоров с помощью VMware VM DirectPath IO. Обратите внимание, что дополнительные производители и графические процессоры будут добавлены позже, поэтому не забывайте проверять обновления.
Все из нас знакомы с понятием центрального процессора (CPU), в последнее время мы также наблюдаем рост использования графических процессоров (GPU) в самых разных областях. GPU набирают популярность в таких направлениях, как машинное обучение, глубокое обучение, анализ данных и, конечно же, игры. Но существует новая технология, которая быстро набирает обороты в датацентрах — это Data Processing Unit (DPU), или процессор обработки данных.
Что же такое DPU?
Проще говоря, DPU — это программируемое устройство с аппаратным ускорением, имеющее также комплекс ARM-процессоров, способных обрабатывать данные. Сегодня DPU доступен в виде SmartNIC (форм-фактор PCIe), который можно установить в сервер и использовать для выполнения различных функций (см. также нашу статью о Project Monterey здесь).
Если взглянуть глубже, SmartNIC содержит ARM-процессор, а также программируемый ускоритель с высокоскоростным интерфейсом между ними. SmartNIC также имеет 2 порта (или больше) с пропускной способностью от 10 Гбит/с до 100 Гбит/с в зависимости от производителя и отдельный Ethernet-порт для управления. У SmartNIC имеется локальное хранилище, что позволяет пользователям устанавливать программное обеспечение, например, гипервизор, такой как ESXi.
В настоящее время в этой технологии участвуют такие производители, как NVIDIA и AMD/Pensando (среди прочих), и вскоре эти устройства станут мейнстримными в датацентрах, поскольку они становятся более доступными для клиентов. Сейчас пока такое устройство от NVIDIA, например, стоит более 2.2 тысяч долларов. Модули от Pensando также начинаются от 2.5 тысяч
По сути, DPU представляет собой систему на чипе (system on a chip, SoC), обеспечивающую высокопроизводительные сетевые интерфейсы, способные обрабатывать данные с гораздо большей скоростью. Но два ключевых аспекта DPU, связанных с портфелем продуктов VMware, включают возможность переноса рабочих нагрузок с хоста x86 на DPU, а также предоставление дополнительного уровня безопасности за счет создания изолированной среды для выполнения некоторых процессов. Эта работа в настоящее время ведется в VMware в рамках проекта Monterey.
В имплементации Monterey сетевые процессы, такие как сетевой трафик, распределенный брандмауэр и другие, будут переданы на обработку SmartNIC. Это означает, что не только ресурсы будут освобождены от сервера x86, но и сам трафик будет обработан DPU. Проект Monterey также упростит установку ESXi и NSX на сам DPU, таким образом, перенос необходимых ресурсов CPU с x86 на DPU не только освободит ресурсы на x86 для использования виртуальными машинами, но и обеспечит дополнительный уровень безопасности.
Недавно мы писали о новых возможностях пакета обновлений платформы виртуализации VMware vSphere 8 Update 3. Сегодня мы более детально рассмотрим, что нового там появилось в плане поддержки карт GPU.
Новые функции охватывают несколько областей, начиная с использования vGPU-профилей разных типов и размеров вместе и заканчивая внесением изменений в расширенные параметры DRS, которые определяют, как ВМ с поддержкой vGPU будет обрабатываться со стороны vMotion, например. Все эти улучшения направлены на упрощение жизни системных администраторов, дата-сайентистов и других пользователей, чтобы они могли использовать свои рабочие нагрузки на платформах vSphere и VCF.
Гетерогенные типы vGPU-профилей с разными размерами
В VMware vSphere мы можем назначить машине vGPU-профиль из набора заранее определенных профилей, чтобы предоставить ей определенную функциональность. Набор доступных vGPU-профилей появляется после установки NVIDIA vGPU менеджера/драйвера на уровне хоста в ESXi посредством vSphere Installation Bundle (VIB).
Эти vGPU-профили называются профилями типа C в случае, если профиль предназначен для интенсивной вычислительной работы, такой как обучение моделей машинного обучения. Существуют и несколько других типов vGPU-профилей, среди которых Q (Quadro) для графических рабочих нагрузок являются одними из самых популярных. Буквы «c» и «q» стоят в конце названия vGPU-профиля, отсюда и название этого типа.
В предыдущем обновлении vSphere 8 Update 2 мы могли назначать машине vGPU-профили, которые предоставляли поддержку различных видов функциональности, используя при этом одно и то же устройство GPU. Ограничением в этой версии vSphere было то, что они должны были быть vGPU-профилями одного и того же размера, например, те, которые заканчиваются на 8q и 8c. Здесь «8» представляет количество гигабайт памяти на самом GPU (иногда называемой framebuffer-памятью), которая назначена ВМ, использующей этот vGPU-профиль. Это значение может изменяться в зависимости от модели основного GPU.
При использовании GPU A40 или L40s мы можем иметь vGPU-профиль типа C, предназначенный для вычислительно интенсивной работы, такой как машинное обучение, и vGPU-профиль типа Q (предназначенный для графической работы), назначенные разным ВМ, которые делят один и тот же физический GPU на хосте.
Теперь в vSphere 8 Update 3 можно продолжать смешивать эти разные типы vGPU-профилей на одном физическом GPU, а также иметь vGPU-профили разного размера памяти, которые делят один и тот же GPU.
В качестве примера новой функциональности vSphere 8 Update 3: ВМ1 с vGPU-профилем l40-16c (для вычислительных нагрузок) и ВМ2 с vGPU-профилем l40-12q (для графических нагрузок) делят одно и то же устройство L40 GPU внутри хоста. Фактически, все вышеупомянутые виртуальные машины делят одно и то же физическое устройство L40 GPU.
Это позволяет лучше консолидировать рабочие нагрузки на меньшее количество GPU, когда рабочие нагрузки не потребляют весь GPU целиком. Возможность размещения гетерогенных типов и размеров vGPU-профилей на одном устройстве GPU применяется к GPU L40, L40s и A40 в частности, так как эти GPU имеют двойное назначение. То есть они могут обрабатывать как графические, так и вычислительно интенсивные задачи, в то время как GPU H100 предназначен исключительно для вычислительно интенсивных задач.
Включение настроек кластера для DRS и мобильности ВМ с vGPU
В vSphere Client версии 8.0 U3 появились новые настройки кластера, которые предоставляют более удобный метод настройки расширенных параметров для кластера DRS. Вы можете установить ограничение по времени приостановки ВМ, которое будет допускаться для машин с vGPU-профилями, которым может потребоваться больше времени, чем по умолчанию, для выполнения vMotion. Время приостановки по умолчанию для vMotion составляет 100 секунд, но этого может быть недостаточно для некоторых ВМ с большими vGPU-профилями. Дополнительное время требуется для копирования памяти GPU на целевой хост. Вы также можете узнать оценочное время приостановки для вашей конкретной ВМ с поддержкой vGPU в vSphere Client. Для получения дополнительной информации о времени приостановки, пожалуйста, ознакомьтесь с этой статьей.
В vSphere 8 Update 3 появился более удобный пользовательский интерфейс для настройки расширенных параметров для кластера DRS, связанных с vMotion виртуальных машин.
Прежде чем мы рассмотрим второй выделенный элемент на экране редактирования настроек кластера ниже, важно понять, что vGPU как механизм доступа к GPU является одной из множества техник, которые находятся в "спектре проброса устройств" (Passthrough spectrum). То есть, vGPU на самом деле является одной из форм прямого доступа. Возможно, вы считали, что подходы прямого проброса и vGPU сильно отличаются друг от друга до настоящего времени, так как они действительно разделены в vSphere Client при выборе добавления нового PCIe-устройства к ВМ. Однако, они тесно связаны друг с другом. Фактически, vGPU ранее назывался "опосредованным пробросом" (mediated passthrough). Этот спектр использования прямого доступа различными способами показан здесь.
Именно поэтому в vSphere Client на выделенном участке экрана ниже используются термины «Passthrough VM» и «Passthrough Devices». Эти термины на самом деле относятся к виртуальным машинам с поддержкой vGPU – и таким образом, обсуждение касается включения DRS и vMotion для виртуальных машин с поддержкой vGPU на этом экране. vMotion не разрешен для виртуальных машин, использующих фиксированный прямой доступ, как показано на левой стороне диаграммы выше.
Новая функция интерфейса позволяет пользователю включить расширенную настройку vSphere под названием «PassthroughDrsAutomation». С включенной этой настройкой, при соблюдении правил по времени приостановки, виртуальные машины в этом кластере могут быть перемещены vMotion на другой хост по решению DRS. Для получения дополнительной информации об этих расширенных настройках DRS, пожалуйста, ознакомьтесь с этой статьей.
Доступ к медиа-движку GPU
Единый медиа-движок на GPU может использоваться виртуальной машиной, которая хостит приложение, которому требуется выполнять транскодирование (кодирование/декодирование) на GPU, а не на более медленном CPU, например, для видео-приложений.
В vSphere 8 Update 3 поддерживается новый vGPU-профиль для виртуальных машин, которым требуется доступ к медиа-движку внутри GPU. Только одна виртуальная машина может использовать этот медиа-движок. Примеры таких vGPU-профилей («me» означает media engine):
a100-1-5cme (один срез)
h100-1-10cme (два среза)
Более высокая скорость vMotion виртуальных машин с большими vGPU-профилями
Новые улучшения в vMotion позволяют нам увеличивать пропускную способность для сети vMotion со скоростью 100 Гбит/с до 60 Гбит/с для vMotion виртуальной машины, к которой подключен современный GPU (H100, L40S), что сокращает время vMotion. Это не относится к GPU A100 и A30, которые относятся к более старой архитектуре (GA100).
Новые технические документы и рекомендации по проектированию GPU с VMware Private AI Foundation with NVIDIA
Недавно были выпущены два важных публикации авторами VMware. Агустин Маланко Лейва и команда опубликовали решение VMware Validation Solution для инфраструктуры Private AI Ready Infrastructure, доступное здесь.
Этот документ предоставляет подробное руководство по настройке GPU/vGPU на VMware Cloud Foundation и многим другим факторам для организации вашей инфраструктуры для развертывания VMware Private AI.
Одним из ключевых приложений, которое будут развертывать в первую очередь в инфраструктуре VMware Private AI Foundation с NVIDIA, является генерация с дополненным извлечением или RAG. Фрэнк Деннеман и Крис МакКейн подробно рассматривают требования к безопасности и конфиденциальности и детали реализации этого в новом техническом документе под названием VMware Private AI – Privacy and Security Best Practices.
Private AI Ready Infrastructure – это уже готовое модульное решение, которое предлагает руководство по проектированию, внедрению и эксплуатации для развертывания AI-нагрузок на стеке VMware Cloud Foundation. Используя GPU-ускоренные VCF Workload Domains, vSphere with Tanzu, NSX и vSAN, это решение обеспечивает прочную основу для современных инициатив в области AI.
Разбор сложностей инфраструктуры, связанных с GPU, и оптимизация AI-нагрузок может быть трудной задачей для администраторов без специальной экспертизы. Трудности, связанные с конфигурацией и управлением средами с GPU, значительны и часто требуют глубоких знаний характеристик оборудования, совместимости драйверов и оптимизации производительности. Однако с решением Private AI Ready Infrastructure VMware Validated Solution, организации могут обойти эти проблемы и уверенно развертывать свои AI нагрузки с проверенными валидированными конфигурациями и лучшими практиками.
Инфраструктура Private AI Foundation with NVIDIA также включена в состав решения VMware Validated Solution, предлагая клиентам возможность поднять свою AI инфраструктуру на новый уровень совместно с решением от NVIDIA.
Что входит в состав решения?
Детальный документ по проектированию архитектуры, охватывающий высокоскоростные сети, вычислительные мощности, хранилища и Accelerators для AI, а также компоненты VMware Private AI Foundation с NVIDIA.
Руководство по сайзингу
Руководство по внедрению
Руководство по эксплуатации и управлению жизненным циклом, включая проверку работоспособности с помощью VMware Starter Pack на основе vLLM RAG
Руководство по совместимости
Начало работы
Ели вы готовы раскрыть весь потенциал вашей Private AI инфраструктуры, получите доступ к этому решению VMware Validated Solution по этой ссылке.
Построенный и запущенный на ведущей в отрасли платформе для частного облака, VMware Cloud Foundation, VMware Private AI Foundation with NVIDIA включает в себя новые микросервисы NVIDIA NIM, модели искусственного интеллекта от NVIDIA и других участников сообщества (таких как Hugging Face), а также инструменты и фреймворки искусственного интеллекта от NVIDIA, доступные с лицензиями NVIDIA AI Enterprise.
VMware Private AI Foundation с NVIDIA — это дополнительный SKU на базе VMware Cloud Foundation. Лицензии программного обеспечения NVIDIA AI Enterprise необходимо приобретать отдельно. Это решение использует NVIDIA NIM — часть NVIDIA AI Enterprise, набор простых в использовании микросервисов, предназначенных для ускорения развертывания генеративных моделей AI в облаке, центрах обработки данных и на рабочих станциях.
С момента GA-релиза VMware Private AI Foundation с NVIDIA были также добавлены дополнительные возможности к этой платформе.
1. Мониторинг GPU
Панели мониторинга — это новые представления для GPU, которые позволяют администраторам легко отслеживать метрики GPU по кластерам. Эта панель предоставляет данные в реальном времени о температуре GPU, использовании памяти и вычислительных мощностях, что позволяет администраторам улучшить время решения проблем с инфраструктурой и операционную эффективность.
Мониторинг температуры — с мониторингом температуры GPU администраторы теперь могут максимизировать производительность GPU, получая ранние предупреждения о перегреве. Это позволяет предпринимать проактивные меры для предотвращения снижения производительности и обеспечения оптимальной работы GPU.
2. Скрипты PowerCLI
Была представлена коллекция из четырёх мощных настраиваемых скриптов PowerCLI, предназначенных для повышения эффективности развёртывания и минимизации ручных усилий для администраторов. Эти скрипты служат ценными инструментами для автоматизации развёртывания необходимой инфраструктуры при внедрении рабочих нагрузок AI в среде VCF. Давайте рассмотрим детали.
Развертывание домена рабочих нагрузок VCF - этот скрипт размещает хосты ESXi в SDDC Manager и разворачивает домен рабочих нагрузок VCF. Этот домен служит основой для настройки VMware Private AI Foundation с NVIDIA для развёртывания рабочих нагрузок AI/ML.
Конфигурация хостов ESXi - используя возможности VMware vSphere Lifecycle Manager, этот скрипт упрощает конфигурацию хостов ESXi, плавно устанавливая компоненты программного обеспечения NVIDIA, входящие в состав NVIDIA AI Enterprise, такие как драйвер NVIDIA vGPU и сервис управления GPU NVIDIA.
Развертывание кластера NSX Edge - этот скрипт облегчает развертывание кластера NSX Edge в домене рабочих нагрузок VCF, обеспечивая внешнюю сетевую связность для рабочих нагрузок AI/ML.
Конфигурация кластера Supervisor и библиотеки содержимого образов ВМ глубокого обучения - этот сценарий настраивает кластер Supervisor в домене рабочих нагрузок VCF. Также он создаёт новую библиотеку содержимого образов VM для глубокого обучения, позволяя пользователям легко развертывать рабочие нагрузки ИИ/ML с предварительно настроенными средами выполнения.
Больше технических деталей о возможностях этого релизы вы можете узнать здесь и здесь.
В видеоблоге, посвященном платформе VMware vSphere, появилось интересное видео о технологии DPU (data processing units). Напомним, что мы писали о ней вот тут и тут.
В данном подкасте "Vare break room chats", ведущий - Shobhit Bhutani, менеджер по продуктовому маркетингу в VMware, а гость - Motti Beck из NVIDIA, обсуждают вызовы, с которыми сталкиваются современные дата-центры, особенно в контексте сложности инфраструктуры. Основная проблема заключается в необходимости обработки больших объемов данных для задач машинного обучения, что требует параллельной обработки и высокопроизводительных сетевых решений.
Они говорят о роли технологий VMware и Nvidia в упрощении управления дата-центрами за счет использования решений на основе DPU, которые позволяют перенести часть задач с CPU на DPU, улучшая тем самым производительность и безопасность. Также обсуждаются достижения новой архитектуры данных, которая позволяет снизить задержки и увеличить пропускную способность, а также повысить энергоэффективность системы.
Примеры улучшений включают возможность работы с большим количеством правил безопасности и эффективное использование ресурсов, что подтверждается бенчмарками. Также поднимается тема удобства интеграции и управления такими системами - установка и настройка не отличаются от традиционных методов, что делает новую технологию доступной без дополнительных усилий со стороны ИТ-специалистов.
В современном быстро развивающемся цифровом ландшафте организациям необходимо при релизовывать инициативы по модернизации инфраструктуры, чтобы оставаться актуальными. Новая волна приложений с поддержкой искусственного интеллекта обещает значительно увеличить производительность работников и ускорить экономическое развитие на глобальном уровне, подобно тому как революция мобильных приложений трансформировала бизнес и технологии на протяжении многих лет. Цель компаний Broadcom и VMware состоит в том, чтобы сделать эту мощную и новую технологию более доступной, надежной и доступной по цене. Однако управление разнообразными технологиями, преодоление человеческого сопротивления изменениям и обеспечение прибыльности могут стать сложными препятствиями для любой комплексной ИТ-стратегии.
В связи с объявлением о начальной доступности VMware Private AI Foundation с NVIDIA, в компании Broadcom рады объявить о новой возможности Private AI Automation Services, работающей на базе решения VMware Aria Automation. С помощью служб Private AI Automation Services, встроенных в VMware Cloud Foundation, клиенты могут автоматизировать настройку и предоставление частных AI-услуг и аллокацию машин с поддержкой GPU для ML-нагрузок.
Существует растущая потребность предприятий в решениях для AI, но их реализация может быть сложной и затратной по времени. Чтобы удовлетворить эту потребность, новая интеграция "из коробки" VMware Private AI Foundation с NVIDIA позволит организациям предоставлять возможности автоматизации на базе платформы VMware Cloud Foundation. Интеграция будет сопровождаться новым мастером настройки каталога, который обеспечит быстрый старт, автоматическую настройку частных AI-услуг и самостоятельное предоставление машин с поддержкой GPU, включая ML-нагрузки и TKG GPU на базе кластеров Kubernetes.
Платформа VMware Cloud Foundation (VCF) представляет собой комплексное решение для частной облачной инфраструктуры, которое обеспечивает всеобъемлющую, безопасную и масштабируемую платформу для создания и эксплуатации генеративных AI-нагрузок. Оно предоставляет организациям гибкость, адаптивность и масштабируемость для удовлетворения их меняющихся бизнес-потребностей. С помощью VMware Cloud Foundation ИТ-администраторы могут управлять дорогостоящими и востребованными ресурсами, такими как GPU, с помощью политик использования, шаблонов и ролей пользователей.
Это позволяет членам команд более эффективно использовать инфраструктурные услуги для своих AI/ML-проектов, в то время как ИТ-администраторы обеспечивают оптимальное и безопасное использование ресурсов. Время развертывания AI-инфраструктуры будет сокращено за счет использования Supervisor VM и сервисов TKG в рамках пространства имен супервизора и предоставления через интерфейс потребления облака.
Этот интерфейс теперь доступен локально для клиентов VMware Cloud Foundation через Aria Automation, позволяя им использовать преимущества VMware Private AI Foundation with NVIDIA. Кроме того, Cloud Consumption Interface предлагает простое и безопасное самостоятельное потребление всех Kubernetes-ориентированных desired state IaaS API, доступных на платформе vSphere. Это позволяет предприятиям легко внедрять опыт DevOps и разрабатывать приложения с большей гибкостью, адаптивностью и современными методами в среде vSphere, сохраняя контроль над своей инфраструктурой.
VMware Cloud Foundation помогает клиентам интегрировать гибкость и контроль, необходимые для поддержки нового поколения приложений с AI, что значительно увеличивает производительность работников, способствует трансформации основных бизнес-функций и оказывает положительное экономическое воздействие.
Частные AI-среды VMware служат отличной основой для нового класса приложений на основе AI, что облегчает использование приватных, но широко распределенных данных. Кроме того, возможности Automation Services обеспечивают более быстрый выход на рынок за счет ускоренной итерации изменений AI/ML-инфраструктуры, управляемой через шаблоны. Они также удобны в использовании за счет сокращения времени доступа к средам разработки с поддержкой GPU через каталоги самообслуживания. Кроме того, они дают разработчикам и командам DevOps подход, соответствующий Kubernetes (desired state), для управления изменениями Day-2. Наконец, они помогут снизить затраты на дорогостоящие ресурсы GPU за счет улучшенного управления и использования мощностей AI/ML-инфраструктуры с встроенными политиками и управлением через опции самообслуживания.
Подход Private AI становится популярным, потому что он удовлетворяет возникающие потребности бизнеса в использовании AI, соблюдая строгие стандарты управления данными и конфиденциальности. Открытые модели GenAI могут представлять потенциальные риски, такие как проблемы конфиденциальности, что заставляет организации быть все более осторожными. Частный AI предлагает убедительную альтернативу, позволяя предприятиям запускать модели AI рядом с источником данных, повышая безопасность и соответствие требованиям. VMware Private AI прокладывает путь к новой парадигме, где трансформационный потенциал AI реализуется без ущерба для конфиденциальности данных клиентов и собственных корпоративных данных. Это экономически выгодное решение станет более важным в 2024 году, поскольку организации сталкиваются с растущими регуляторными препятствиями.
Ожидается, что Automation Services для VMware Private AI
станут доступны во втором фискальном квартале Broadcom.
Команда VMware Cloud объявила о публичной доступности платформы VMware Cloud Foundation 5.1.1, поддерживающей первоначальный доступ (initial availability, IA) к инфраструктуре VMware Private AI Foundation with NVIDIA в дополнение к новой модели лицензирования решений VCF, что является первым этапом многоэтапной программы по предоставлению полного стека VCF как единого продукта. Ниже представлен обзор этих важных новых возможностей VCF 5.1.1, а также дополнительные ресурсы и ссылки.
Спецификация версий компонентов VMware Cloud Foundation 5.1.1:
VMware Private AI Foundation with NVIDIA
Как было объявлено на конференции GTC AI Conference 2024, Broadcom предоставила первоначальный доступ (initial availability) к VMware Private AI Foundation with NVIDIA в качестве продвинутого аддона к VMware Cloud Foundation. VMware Private AI Foundation открывает новую эру решений инфраструктуры, поддерживаемых VMware Cloud Foundation для широкого спектра случаев использования генеративного AI. Читайте больше о решениях VMware Cloud Foundation для AI и машинного обучения здесь.
VMware Cloud Foundation является основной инфраструктурной платформой для VMware Private AI Foundation with NVIDIA, предоставляющей современное частное облако, которое позволяет организациям динамически масштабировать рабочие нагрузки GenAI по требованию. VMware Cloud Foundation предлагает автоматизированный процесс самообслуживания в облаке, который ускоряет продуктивность для разработчиков, аналитиков и ученых, обеспечивая при этом комплексную безопасность и устойчивость для защиты и восстановления самой чувствительной интеллектуальной собственности организации.
VMware Cloud Foundation решает многие проблемы, возникающие при развертывании инфраструктуры для поддержки рабочих нагрузок GenAI, за счет архитектуры платформы с полным программно-определяемым стеком, объединяя лучшие в своем классе ресурсы GPU, тесно интегрированные с вычислениями, хранением данных, сетями, безопасностью и управлением.
В VMware Cloud Foundation 5.1.1 существуют хорошо задокументированные рабочие процессы в SDDC Manager для настройки и конфигурации домена рабочих нагрузок Private AI. Также имеется мастер настройки каталога автоматизации VCF, который упрощает конфигурацию этих систем. Зв счет интеграции последних релизов Aria с VMware Cloud Foundation 5.1.1, появляются новые возможности управления, которые можно использовать в решениях Aria Operations и Aria Automation.
Aria Operations включает новые свойства и метрики мониторинга GPU, предоставляющие метрики на уровне кластера и хоста для управления здоровьем и использованием ресурсов GPU. Aria Automation предоставляет новые сервисы автоматизации для VMware Private AI, предлагая модель развертывания частного облака самообслуживания, которая позволяет разработчикам и аналитикам настраивать и перестраивать блоки инфраструктуры для поддержки широкого спектра вариантов использования. Эта новая возможность повышает не только производительность, но и эффективность этих решений на основе GPU, снижая общую стоимость владения (TCO). Гибкость, предлагаемая этой архитектурой, позволяет администраторам облака использовать различные домены рабочих нагрузок, каждый из которых может быть настроен для поддержки конкретных типов виртуальных машин, оптимизируя производительность рабочих нагрузок и использование ресурсов GPU.
Поддержка новой модели лицензирования VMware Cloud Foundation
Для дальнейшего упрощения развертывания, VMware Cloud Foundation 5.1.1 предлагает опцию развертывания единого лицензионного ключа решения, которая теперь включает 60-дневный пробный период. Дополнительные продукты и аддоны к VMware Cloud Foundation теперь также могут быть подключены на основе единого ключа (отметим, что лицензия vSAN на TiB является исключением на данный момент и все еще должна применяться отдельно). Поддержка отдельных компонентных лицензионных ключей продолжается, но новая функция единого ключа должна упростить лицензирование решений на базе развертываний VMware Cloud Foundation.
VMware Cloud Foundation 5.1.1 доступен для загрузки и развертывания уже сейчас. Доступ к VMware Private AI Foundation with NVIDIA можно запросить здесь.
На конференции Explore 2023 компания VMware объявила о новой инициативе в области поддержки систем генеративного AI - VMware Private AI. Сейчас, когда технологии генеративного AI выходят на первый план, особенно важно организовать инфраструктуру для них - то есть подготовить программное и аппаратное обеспечение таким образом, чтобы расходовать ресурсы, необходимые для AI и ML, наиболее эффективно, так как уже сейчас в сфере Corporate AI требуются совершенно другие мощности, чтобы обслуживать эти задачи.
Генеративный искусственный интеллект (Gen AI) - одно из важнейших восходящих направлений, которые изменят ландшафт компаний в течение следующих 5-10 лет. В основе этой волны инноваций находятся большие языковые модели (LLM), обрабатывающие обширные и разнообразные наборы данных. LLM позволяют людям взаимодействовать с моделями искусственного интеллекта через естественный язык как в текстовой форме, так и через речь или изображения.
Инвестиции и активность в области исследований и разработок LLM заметно возросли, что привело к обновлению текущих моделей и выпуску новых, таких как Gemini (ранее Bard), Llama 2, PaLM 2, DALL-E и другие. Некоторые из них являются открытыми для общественности, в то время как другие являются собственностью компаний, таких как Google, Meta и OpenAI. В ближайшие несколько лет ценность GenAI будет определяться доработкой и настройкой моделей, адаптированных к конкретным областям бизнеса и отраслям. Еще одним важным развитием в использовании LLM является Retrieval Augmented Generation (RAG), при котором LLM привязываются к большим и разнообразным наборам данных, чтобы предприятия могли взаимодействовать с LLM по вопросам данных.
VMware предоставляет программное обеспечение, которое модернизирует, оптимизирует и защищает рабочие нагрузки самых сложных организаций в области обработки данных, на всех облачных платформах и в любом приложении. Платформа VMware Cloud Foundation помогает предприятиям внедрять инновации и трансформировать свой бизнес, а также развертывать широкий спектр приложений и услуг искусственного интеллекта. VMware Cloud Foundation обеспечивает единый платформенный подход к управлению всеми рабочими нагрузками, включая виртуальные машины, контейнеры и технологии искусственного интеллекта, через среду самообслуживания и автоматизированного ИТ-окружения.
На днях, на конференции NVIDIA GTC, VMware объявила о начальной доступности (Initial Availability) решения VMware Private AI Foundation with NVIDIA.
VMware Private AI Foundation with NVIDIA
VMware/Broadcom и NVIDIA стремятся раскрыть потенциал Gen AI и максимально использовать производительность совместной платформы.
Построенный и запущенный на ведущей в отрасли платформе для частного облака, VMware Cloud Foundation, VMware Private AI Foundation with NVIDIA включает в себя новые микросервисы NVIDIA NIM, модели искусственного интеллекта от NVIDIA и других участников сообщества (таких как Hugging Face), а также инструменты и фреймворки искусственного интеллекта от NVIDIA, доступные с лицензиями NVIDIA AI Enterprise.
Эта интегрированная платформа GenAI позволяет предприятиям запускать рабочие процессы RAG, внедрять и настраивать модели LLM и выполнять эти нагрузки в их центрах обработки данных, решая проблемы конфиденциальности, выбора, стоимости, производительности и комплаенса. Она упрощает развертывание GenAI для предприятий, предлагая интуитивный инструмент автоматизации, образы глубокого обучения виртуальных машин, векторную базу данных и возможности мониторинга GPU. Эта платформа представляет собой дополнительный SKU в дополнение к VMware Cloud Foundation. Обратите внимание, что лицензии NVIDIA AI Enterprise должны быть приобретены отдельно у NVIDIA.
Ключевые преимущества
Давайте разберем ключевые преимущества VMware Private AI Foundation с участием NVIDIA:
Обеспечение конфиденциальности, безопасности и соблюдения нормативов моделей искусственного интеллекта
VMware Private AI Foundation with NVIDIA предлагает архитектурный подход к обслуживанию искусственного интеллекта, обеспечивающий конфиденциальность, безопасность и контроль над корпоративными данными, а также более интегрированную систему безопасности и управления.
VMware Cloud Foundation обеспечивает продвинутые функции безопасности, такие как защита загрузки, виртуальный TPM, шифрование виртуальных машин и многое другое. В рамках услуг NVIDIA AI Enterprise включено программное обеспечение управления для использования рабочей нагрузки и инфраструктуры для масштабирования разработки и развертывания моделей искусственного интеллекта. Стек программного обеспечения для искусственного интеллекта включает более 4500 пакетов программного обеспечения с открытым исходным кодом, включая программное обеспечение сторонних производителей и программное обеспечение NVIDIA.
Часть услуг NVIDIA AI Enterprise включает патчи для критических и опасных уязвимостей (CVE) с производственными и долгосрочными ветвями поддержки и обеспечения совместимости API по всему стеку. VMware Private AI Foundation with NVIDIA обеспечивает средства развертывания, которые предоставляют предприятиям контроль над множеством регуляторных задач с минимальными изменениями в их текущей среде.
Ускоренная производительность моделей GenAI независимо от выбранных LLM
Broadcom и NVIDIA предоставляют программные и аппаратные средства для достижения максимальной производительности моделей GenAI. Эти интегрированные возможности, встроенные в платформу VMware Cloud Foundation, включают мониторинг GPU, горячую миграцию и балансировку нагрузки, мгновенное клонирование (возможность развертывания кластеров с несколькими узлами с предварительной загрузкой моделей за несколько секунд), виртуализацию и пулы GPU, а также масштабирование ввода/вывода GPU с помощью NVIDIA NVLink и NVIDIA NVSwitch.
Недавнее исследование сравнивало рабочие нагрузки искусственного интеллекта на платформе VMware + NVIDIA AI-Ready Enterprise с bare metal. Результаты показывают производительность, сравнимую или даже лучшую, чем на bare metal. Таким образом, размещение рабочих нагрузок искусственного интеллекта на виртуализированных решениях сохраняет производительность и приносит преимущества виртуализации, такие как упрощенное управление и улучшенная безопасность. NVIDIA NIM позволяет предприятиям выполнять операции на широком диапазоне оптимизированных LLM, от моделей NVIDIA до моделей сообщества, таких как Llama-2, и до LLM с открытым исходным кодом, таких как Hugging Face, с высокой производительностью.
Упрощение развертывания GenAI и оптимизация затрат
VMware Private AI Foundation with NVIDIA помогает предприятиям упростить развертывание и достичь экономичного решения для своих моделей GenAI. Он предлагает такие возможности, как векторная база данных для выполнения рабочих процессов RAG, виртуальные машины глубокого обучения и мастер автоматического запуска для упрощения развертывания. Эта платформа реализует единые инструменты и процессы управления, обеспечивая значительное снижение затрат. Этот подход позволяет виртуализировать и использовать общие ресурсы инфраструктуры, такие как GPU, CPU, память и сети, что приводит к существенному снижению затрат, особенно для случаев использования, где полноценные GPU могут быть необязательными.
Архитектура
VMware Cloud Foundation, полноценное решение для частного облачного инфраструктуры, и NVIDIA AI Enterprise, полнофункциональная облачная платформа, образуют основу платформы VMware Private AI Foundation with NVIDIA. Вместе они предоставляют предприятиям возможность запуска частных и безопасных моделей GenAI.
Основные возможности, которые следует выделить:
1. Специальные возможности, разработанные VMware
Давайте подробнее рассмотрим каждую из них.
Шаблоны виртуальных машин для глубокого обучения
Настройка виртуальной машины для глубокого обучения может быть сложным и затратным процессом. Ручное создание может привести к недостатку согласованности и, следовательно, к недостаточной оптимизации в различных средах разработки. VMware Private AI Foundation with NVIDIA предоставляет виртуальные машины для глубокого обучения, которые поставляются предварительно настроенными с необходимыми программными средствами, такими как NVIDIA NGC, библиотеками и драйверами, что освобождает пользователей от необходимости настраивать каждый компонент.
Векторные базы данных для выполнения рабочих процессов RAG
Векторные базы данных стали очень важным компонентом для рабочих процессов RAG. Они обеспечивают быстрый запрос данных и обновление в реальном времени для улучшения результатов LLM без необходимости повторного обучения этих моделей, что может быть очень затратным и долгим. Они стали стандартом для рабочих процессов GenAI и RAG. VMware применяет векторные базы данных, используя pgvector на PostgreSQL. Эта возможность управляется с помощью автоматизации в рамках инфраструктуры служб данных в VMware Cloud Foundation. Сервис управления данными упрощает развертывание и управление базами данных с открытым исходным кодом и коммерческими базами данных из одного интерфейса.
Мастер настройки каталога
Создание инфраструктуры для проектов искусственного интеллекта включает несколько сложных шагов. Эти шаги выполняются администраторами, специализирующимися на выборе и развертывании соответствующих классов виртуальных машин, кластеров Kubernetes, виртуальных графических процессоров (vGPU) и программного обеспечения для искусственного интеллекта/машинного обучения, такого как контейнеры в каталоге NGC.
В большинстве предприятий исследователи данных и DevOps тратят значительное количество времени на сборку необходимой им инфраструктуры для разработки и производства моделей искусственного интеллекта/машинного обучения. Полученная инфраструктура может не соответствовать требованиям безопасности и масштабируемости для разных команд и проектов. Даже при оптимизированных развертываниях инфраструктуры для искусственного интеллекта/машинного обучения исследователи данных и DevOps могут тратить значительное количество времени на ожидание, когда администраторы создадут, составят и предоставят необходимые объекты каталога инфраструктуры для задач искусственного интеллекта/машинного обучения.
Для решения этих проблем VMware Cloud Foundation представляет мастер настройки каталога (Catalog Setup Wizard) - новую возможность Private AI Automation Services. На начальном этапе LOB-администраторы могут эффективно создавать, составлять и предоставлять оптимизированные объекты каталога инфраструктуры искусственного интеллекта через портал самообслуживания VMware Cloud Foundation. После публикации DevOps исследователи данных могут легко получить доступ к элементам каталога машинного обучения и развернуть их с минимальными усилиями. Мастер настройки каталога снижает ручную нагрузку для администраторов и сокращает время ожидания, упрощая процесс создания масштабируемой инфраструктуры.
Мониторинг GPU
Получая видимость использования и метрик производительности GPU, организации могут принимать обоснованные решения для оптимизации производительности, обеспечения надежности и управления затратами в средах с ускорением на GPU. С запуском VMware Private Foundation with NVIDIA сразу доступны возможности мониторинга GPU в VMware Cloud Foundation. Это дает администраторам дэшборды с информацией об использовании GPU в рамках кластеров и хостов, в дополнение к существующим метрикам мониторинга.
2. Возможности NVIDIA AI Enterprise
NVIDIA NIM
NVIDIA NIM - это набор простых в использовании микросервисов, разработанных для ускорения развертывания GenAI на предприятиях. Этот универсальный микросервис поддерживает модели NVIDIA AI Foundation Models - широкий спектр моделей - от ведущих моделей сообщества до моделей, созданных NVIDIA, а также индивидуальные пользовательские модели искусственного интеллекта, оптимизированные для стека NVIDIA. Созданный на основе фундаментальных компонентов NVIDIA Triton Inference Server, NVIDIA TensorRT, TensorRT-LLM и PyTorch, NVIDIA NIM предназначен для обеспечения масштабируемых и гибких моделей AI.
NVIDIA Nemo Retriever
NVIDIA NeMo Retriever - это часть платформы NVIDIA NeMo, которая представляет собой набор микросервисов NVIDIA CUDA-X GenAI, позволяющих организациям без проблем подключать пользовательские модели к разнообразным бизнес-данным и предоставлять высокоточные ответы. NeMo Retriever обеспечивает поиск информации самого высокого уровня с минимальной задержкой, максимальной пропускной способностью и максимальной конфиденциальностью данных, позволяя организациям эффективно использовать свои данные и генерировать бизнес-инсайты в реальном времени. NeMo Retriever дополняет приложения GenAI расширенными возможностями RAG, которые могут быть подключены к бизнес-данным в любом месте их хранения.
NVIDIA RAG LLM Operator
Оператор NVIDIA RAG LLM упрощает запуск приложений RAG в производственную среду. Он оптимизирует развертывание конвейеров RAG, разработанных с использованием примеров рабочих процессов искусственного интеллекта NVIDIA, в производственной среде без переписывания кода.
NVIDIA GPU Operator
Оператор NVIDIA GPU автоматизирует управление жизненным циклом программного обеспечения, необходимого для использования GPU с Kubernetes. Он обеспечивает расширенные функциональные возможности, включая повышенную производительность GPU, эффективное использование ресурсов и телеметрию. Оператор GPU позволяет организациям сосредотачиваться на создании приложений, а не на управлении инфраструктурой Kubernetes.
Поддержка ведущих производителей серверного оборудования
Платформа от VMware и NVIDIA поддерживается ведущими производителями серверного оборудования, такими как Dell, HPE и Lenovo.
Более подробно о VMware Private AI Foundation with NVIDIA можно узнать тут и тут.
На прошедшей в этом году конференции Explore 2023 компания VMware сделала множество интересных анонсов в сфере искусственного интеллекта (AI). Сейчас, когда технологии генеративного AI выходят на первый план, особенно важно организовать инфраструктуру для них - то есть подготовить программное и аппаратное обеспечение таким образом, чтобы расходовать ресурсы, необходимые для AI и ML, наиболее эффективно, так как уже сейчас в сфере Corporate AI требуются совершенно другие мощности, чтобы обслуживать эти задачи.
На конференции VMworld 2020 Online ковидного года компания VMware представила одну из самых интересных своих инициатив по сотрудничеству с вендорами оборудования - Project Monterey. Тогда была представлена технология SmartNIC/DPU, которая позволяет обеспечить высокую производительность, безопасность по модели zero-trust и простую эксплуатацию в среде VCF.
SmartNIC - это специальный сетевой адаптер (NIC) c модулем CPU на борту, который берет на себя offload основных функций управляющих сервисов (а именно, работу с хранилищами и сетями, а также управление самим хостом).
В данном решении есть три основных момента:
Поддержка перенесения сложных сетевых функций на аппаратный уровень, что увеличивает пропускную способность и уменьшает задержки (latency).
Унифицированные операции для всех приложений, включая bare-metal операционные системы.
Модель безопасности Zero-trust security - обеспечение изоляции приложений без падения производительности. Ведь если основной ESXi для исполнения рабочих нагрузок будет скомпрометирован, то управляющий DPU сможет обнаружить ее и устранить уязвимость.
В статье об аппаратных нововведениях платформы VMware vSphere 8 Update 2, представленных на конференции Explore 2023, мы писали о том, что VMware еще в vSphere 8 представила поддержку DPU, позволяя клиентам переносить инфраструктурные рабочие нагрузки с CPU на специализированный модуль DPU, тем самым повышая производительность бизнес-нагрузок. Ну а в vSphere 8 U2 клиенты, использующие серверы Lenovo или Fujitsu, теперь смогут использовать новые функции интеграции vSphere DPU и его преимущества в производительности.
Теперь в платформах vSphere 8 и NSX есть полноценная поддержка устройств SmartNIC или так называемых устройств обработки данных (DPU). Реализация DPU в vSphere называется vSphere Distributed Service Engine.
DPU (SmartNIC) — это сетевые карты с встроенным интеллектом, которые могут выполнять различные сетевые функции непосредственно на адаптере через свои собственные программируемые процессоры. В дополнение к сетевым ускорителям, такие DPU, как NVIDIA BlueField, также имеют ядра общего назначения на базе процессора Arm, которые могут запускать полноценную систему ESXi (вот для чего и пригодился гипервизор VMware ESXi Arm Edition).
С технологией DPU, службы NSX, такие как маршрутизация, коммутация, брандмауэр и мониторинг, снимаются с хост-гипервизора и переносятся на DPU. С помощью этих возможностей возможно улучшить производительность, освободить ресурсы на хосте и изолировать рабочую нагрузку и инфраструктурные домены.
Ну и несколько картинок по результатам тестирования хостов ESXi с модулями SmartNIC/DPU на борту, которые показывают, какой прирост производительности дает новая технология:
Продолжаем рассказывать об интересных анонсах главного события года в мире виртуализации - конференции VMware Explore 2023. Сегодня организации стремятся использовать AI, но беспокоятся о рисках для интеллектуальной собственности, утечке данных и контроле доступа к моделям искусственного интеллекта. Эти проблемы определяют необходимость корпоративного приватного AI.
Об этом недавно компания VMware записала интересное видео:
Рассмотрим этот важный анонс немного детальнее. Вот что приватный AI может предложить по сравнению с публичной инфраструктурой ChatGPT:
Распределенность: вычислительная мощность и модели AI будут находиться рядом с данными. Это требует инфраструктуры, поддерживающей централизованное управление.
Конфиденциальность данных: данные организации остаются в ее владении и не используются для тренировки других моделей без согласия компании.
Контроль доступа: установлены механизмы доступа и аудита для соблюдения политик компании и регуляторных правил.
Приватный AI не обязательно требует частных облаков, главное — соблюдение требований конфиденциальности и контроля.
Подход VMware Private AI
VMware специализируется на управлении рабочими нагрузками различной природы и имеет огромный опыт, полезный для имплементации успешного приватного AI. К основным преимуществам подхода VMware Private AI относятся:
Выбор: организации могут легко сменить коммерческие AI-сервисы или использовать открытые модели, адаптируясь к бизнес-требованиям.
Конфиденциальность: современные методы защиты обеспечивают конфиденциальность данных на всех этапах их обработки.
Производительность: показатели AI-задач равны или даже превышают аналоги на чистом железе, как показали отраслевые тесты.
Управление: единый подход к управлению снижает затраты и риски ошибок.
Time-to-value: AI-окружения можно быстро поднимать и выключать за считанные секунды, что повышает гибкость и скорость реакции на возникающие задачи.
Эффективность: быстрое развертывание корпоративных AI-сред и оптимизация использования ресурсов снижают общие затраты на инфраструктуру и решение задач, которые связаны с AI.
Таким образом, платформа VMware Private AI предлагает гибкий и эффективный способ внедрения корпоративного приватного AI.
VMware Private AI Foundation в партнерстве с NVIDIA
VMware сотрудничает с NVIDIA для создания универсальной платформы VMware Private AI Foundation with NVIDIA. Эта платформа поможет предприятиям настраивать большие языковые модели, создавать более безопасные модели для внутреннего использования, предлагать генеративный AI как сервис и безопасно масштабировать задачи генерации результатов. Решение основано на средах VMware Cloud Foundation и NVIDIA AI Enterprise и будет предлагать следующие преимущества:
Масштабирование уровня датацентров: множественные пути ввода-вывода для GPU позволяют масштабировать AI-загрузки на до 16 виртуальных GPU в одной виртуальной машине.
Производительное хранение: архитектура VMware vSAN Express обеспечивает оптимизированное хранение на базе хранилищ NVMe и технологии GPUDirect storage over RDMA, а также поддерживает прямую передачу данных от хранилища к GPU без участия CPU.
Образы виртуальных машин vSphere для Deep Learning: быстрое прототипирование с предустановленными фреймворками и библиотеками.
В решении будет использоваться NVIDIA NeMo, cloud-native фреймворк в составе NVIDIA AI Enterprise, который упрощает и ускоряет принятие генеративного ИИ.
Архитектура VMware для приватного AI
AI-лаборатории VMware совместно с партнерами разработали решение для AI-сервисов, обеспечивающее приватность данных, гибкость выбора ИИ-решений и интегрированную безопасность. Архитектура предлагает:
Использование лучших моделей и инструментов, адаптированных к бизнес-потребностям.
Быстрое внедрение благодаря документированной архитектуре и коду.
Интеграцию с популярными открытыми проектами, такими как ray.io, Kubeflow, PyTorch, pgvector и моделями Hugging Face.
Архитектура поддерживает коммерческие и открытые MLOps-инструменты от партнеров VMware, такие как MLOps toolkit for Kubernetes, а также различные надстройки (например, Anyscale, cnvrg.io, Domino Data Lab, NVIDIA, One Convergence, Run:ai и Weights & Biases). В состав платформы уже включен самый популярный инструмент PyTorch для генеративного AI.
Сотрудничество с AnyScale расширяет применение Ray AI для онпремизных вариантов использования. Интеграция с Hugging Face обеспечивает простоту и скорость внедрения открытых моделей.
Решение Private AI уже применяется в собственных датацентрах VMware, показывая впечатляющие результаты по стоимости, масштабу и производительности разработчиков.
Там приведены результаты тестирования производительности рабочих нагрузок обучения AI/ML на платформе виртуализации VMware vSphere с использованием нескольких графических процессоров NVIDIA A100-80GB с поддержкой технологии NVIDIA NVLink. Результаты попадают в так называемую "зону Голдилокс", что означает область хорошей производительности инфраструктуры, но с преимуществами виртуализации.
Результаты показывают, что время обучения для нескольких тестов MLPerf v3.0 Training1 увеличивается всего от 6% до 8% относительно времени тех же рабочих нагрузок на аналогичной физической системе.
Кроме того, в документе показаны результаты теста MLPerf Inference v3.0 для платформы vSphere с графическими процессорами NVIDIA H100 и A100 Tensor Core. Тесты показывают, что при использовании NVIDIA vGPU в vSphere производительность рабочей нагрузки, измеренная в запросах в секунду (QPS), составляет от 94% до 105% производительности на физической системе.
vSphere 8 и высокопроизводительная виртуализация с графическими процессорами NVIDIA и NVLink.
Партнерство между VMware и NVIDIA позволяет внедрить виртуализированные графические процессоры в vSphere благодаря программному слою NVIDIA AI Enterprise. Это дает возможность не только достигать наименьшего времени обработки для виртуализированных рабочих нагрузок машинного обучения и искусственного интеллекта, но и использовать многие преимущества vSphere, такие как клонирование, vMotion, распределенное планирование ресурсов, а также приостановка и возобновление работы виртуальных машин.
VMware, Dell и NVIDIA достигли производительности, близкой или превышающей аналогичную конфигурацию на физическом оборудовании со следующими настройками:
Dell PowerEdge R750xa с 2-мя виртуализированными графическими процессорами NVIDIA H100-PCIE-80GB
Для вывода в обеих конфигурациях требовалось всего 16 из 128 логических ядер ЦП. Оставшиеся 112 логических ядер ЦП в дата-центре могут быть использованы для других задач. Для достижения наилучшей производительности виртуальных машин во время обучения требовалось 88 логических ядер CPU из 128. Оставшиеся 40 логических ядер в дата-центре могут быть использованы для других активностей.
Производительность обучения AI/ML в vSphere 8 с NVIDIA vGPU
На картинке ниже показано сравнительное время обучения на основе тестов MLPerf v3.0 Training, с использованием vSphere 8.0.1 с NVIDIA vGPU 4x HA100-80c против конфигурации на физическом оборудовании с 4x A100-80GB GPU. Базовое значение для физического оборудования установлено как 1.00, и результат виртуализации представлен в виде относительного процента от базового значения. vSphere с NVIDIA vGPUs показывает производительность близкую к производительности на физическом оборудовании, где накладные расходы на виртуализацию составляют 6-8% при обучении с использованием BERT и RNN-T.
Таблица ниже показывает время обучения в минутах для тестов MLPerf v3.0 Training:
Результаты на физическом оборудовании были получены Dell и опубликованы в разделе закрытых тестов MLPerf v3.0 Training с ID 3.0-2050.2.
Основные моменты из документа:
VMware vSphere с NVIDIA vGPU и технологией AI работает в "зоне Голдилокс" — это область производительности для хорошей виртуализации рабочих нагрузок AI/ML.
vSphere с NVIDIA AI Enterprise, используя NVIDIA vGPUs и программное обеспечение NVIDIA AI, показывает от 106% до 108% от главной метрики физического оборудования (100%), измеренной как время обучения для тестов MLPerf v3.0 Training.
vSphere достигла пиковой производительности, используя всего 88 логических ядер CPU из 128 доступных ядер, оставив тем самым 40 логических ядер для других задач в дата-центре.
VMware использовала NVIDIA NVLinks и гибкие группы устройств, чтобы использовать ту же аппаратную конфигурацию для обучения ML и вывода ML.
vSphere с NVIDIA AI Enterprise, используя NVIDIA vGPU и программное обеспечение NVIDIA AI, показывает от 94% до 105% производительности физического оборудования, измеренной как количество обслуживаемых запросов в секунду для тестов MLPerf Inference v3.0.
vSphere достигла максимальной производительности вывода, используя всего 16 логических ядер CPU из 128 доступных, оставив тем самым 112 логических ядер CPU для других задач в дата-центре.
vSphere сочетает в себе мощь NVIDIA vGPU и программное обеспечение NVIDIA AI с преимуществами управления дата-центром виртуализации.
Более подробно о тестировании и его результатах вы можете узнать из документа.
В марте компания VMware анонсировала скорую доступность первого пакета обновлений своей флагманской платформы виртуализации VMware vSphere 8.0 Update 1. Напомним, что прошлая версия VMware vSphere 8.0 была анонсирована на конференции VMware Explore 2022 в августе прошлого года.
Давайте посмотрим, что нового появилось в vSphere 8.0 U1:
1. Полная поддержка vSphere Configuration Profiles
В vSphere 8.0 эта функциональность впервые появилась и работала в режиме технологического превью, а в Update 1 она полностью вышла в продакшен. Эта возможность представляет собой новое поколение инструментов для управления конфигурациями кластеров и заменяет предыдущую функцию Host Profiles. Ее особенности:
Установка желаемой конфигурации на уровне кластера в форме JSON-документа
Проверка хостов на соответствие желаемой конфигурации
При выявлении несоответствий - перенастройка хостов на заданный уровень конфигурации
В vSphere 8 Update 1 возможности Configuration Profiles поддерживают настройку распределенных коммутаторов vSphere Distributed Switch, которая не была доступна в режиме технологического превью. Однако, окружения, использующие VMware NSX, все еще не поддерживаются.
Существующие кластеры можно перевести под управление Configuration Profiles. Если для кластера есть привязанный профиль Host Profile, то вы увидите предупреждение об удалении профиля, когда кластер будет переведен в Configuration Profiles. Как только переход будет закончен, Host Profiles уже нельзя будет привязать к кластеру и хостам.
Если кластер все еще использует управление жизненным циклом на базе бейзлайнов, то сначала кластер нужно перевести в режим управления image-based:
vSphere Configuration Profiles могут быть активированы при создании нового кластера. Это требует, чтобы кластер управлялся на основе единого определения образа. После создания кластера доступна кастомизация конфигурации. Более подробно о возможностях Configuration Profiles можно почитать здесь.
2. vSphere Lifecycle Manager
для отдельных хостов
В vSphere 8 появилась возможность управлять через vSphere Lifecycle Manager отдельными хостами ESXi под управлением vCenter посредством vSphere API. В Update 1 теперь есть полная поддержка vSphere Client для этого процесса - создать образ, проверить и привести в соответствие, а также другие функции.
Все, что вы ожидаете от vSphere Lifecycle Manager для взаимодействия с кластером vSphere, вы можете делать и для отдельных хостов, включая стейджинг и функции ESXi Quick Boot.
Также вы можете определить кастомные image depots для отдельных хостов - это полезно, когда у вас есть хост, который находится на уровне edge и должен использовать depot, размещенный совместно с хостом ESXi, во избежание проблем с настройкой конфигурации при плохом соединении удаленных друг от друга хостов ESXi и vCenter.
3. Различные GPU-нагрузки хоста на базе одной видеокарты
В предыдущих версиях vSphere все рабочие нагрузки NVIDIA vGPU должны были использовать тот же самый тип профиля vGPU и размер памяти vGPU. В vSphere 8 U1 модули NVIDIA vGPU могут быть назначены для различных типов профилей. Однако, размер памяти для них должен быть, по-прежнему, одинаковым. Например, на картинке ниже мы видим 3 виртуальных машины, каждая с разным профилем (B,C и Q) и размером памяти 8 ГБ. Это позволяет более эффективно разделять ресурсы между нагрузками разных видов.
NVIDIA позволяет создавать следующие типы профилей vGPU:
Profile type A - для потоково доставляемых приложений или для решений на базе сессий
Profile type B - для VDI-приложений
Profile type C - для приложений, требовательных к вычислительным ресурсам (например, machine learning)
Profile type Q - для приложений, требовательных к графике
4. Службы Supervisor Services для vSphere Distributed Switch
В vSphere 8 Update 1, в дополнение к VM Service, службы Supervisor Services теперь доступны при использовании сетевого стека vSphere Distributed Switch.
Supervisor Services - это сертифицированные в vSphere операторы Kubernetes, которые реализуют компоненты Infrastructure-as-a-Service, тесно интегрированные со службами независимых разработчиков ПО. Вы можете установить и управлять Supervisor Services в окружении vSphere with Tanzu, чтобы сделать их доступными для использования рабочими нагрузками Kubernetes. Когда Supervisor Services установлены на Supervisors, инженеры DevOps могут использовать API для создания инстансов на Supervisors в рамках пользовательских пространств имен.
Возможность VM Service была доработана, чтобы поддерживать образы ВМ, созданные пользователями. Теперь администраторы могут собирать собственные пайплайны сборки образов с поддержкой CloudInit и vAppConfig.
Администраторы могут добавить эти новые шаблоны ВМ в Content library, чтобы они стали доступны команде DevOps. А сами DevOps создают спецификацию cloud-config, которая настроит ВМ при первой загрузке. Команда DevOps отправляет спецификацию ВМ вместе cloud-config для создания и настройки ВМ.
DevOps могут теперь получать простой доступ к виртуальным машинам, которые они развернули, с использованием kubectl.
В этом случае создается уникальная ссылка, по которой можно получить доступ к консоли ВМ, и которая не требует настройки разрешений через vSphere Client. Веб-консоль дает по этому URL доступ пользователю к консоли машины в течение двух минут. В этом случае нужен доступ к Supervisor Control Plane по порту 443.
Веб-консоль ВМ дает возможности самостоятельной отладки и траблшутинга даже для тех ВМ, у которых может не быть доступа к сети и настроенного SSH.
7. Интегрированный плагин Skyline Health Diagnostics
Теперь развертывание и управление VMware Skyline Health Diagnostics упростилось за счет рабочего процесса, встроенного в vSphere Client, который дает возможность просто развернуть виртуальный модуль и зарегистрировать его в vCenter.
Skyline Health Diagnostics позволяет вам:
Диагностировать и исправлять различные типы отказов в инфраструктуре
Выполнять проверку состояния компонентов (health checks)
Понимать применимость VMware Security Advisories и связанных элементов
Обнаруживать проблемы, которые влияют на апдейты и апгрейды продукта
Утилита использует логи, конфигурационную информацию и другие источники для обнаружения проблем и предоставления рекомендаций в форме ссылок на статьи KB или шагов по исправлению ситуации.
8. Улучшенные метрики vSphere Green Metrics
В vSphere 8.0 появились метрики, которые отображают потребление энергии виртуальными машинами с точки зрения энергоэффективности виртуального датацентра. В vSphere 8.0 Update 1 теперь можно отслеживать их на уровне отдельных ВМ. Они берут во внимание объем ресурсов ВМ, чтобы дать пользователю более точную информацию об энергоэффективности на уровне отдельных нагрузок. Разработчики также могут получать их через API, а владельцы приложений могут получать агрегированное представление этих данных.
Метрика Static Power - это смоделированное потребление мощности простаивающих ресурсов ВМ, как если бы она был хостом bare-metal с такими же аппаратными параметрами процессора и памяти. Static Power оценивает затраты на поддержание таких хостов во включенном состоянии. Ну а Usage - это реально измеренное потребление мощности ВМ в активном режиме использования CPU и памяти, которые запрашиваются через интерфейс (IPMI - Intelligent Platform Management Interface).
9. Функция Okta Identity Federation для vCenter
vSphere 8 Update 1 поддерживает управление идентификациями и многофакторной аутентификацией в облаке, для чего на старте реализована поддержка Okta.
Использование Federated identity подразумевает, что vSphere не видит пользовательских учетных данных, что увеличивает безопасность. Это работает по аналогии со сторонними движками аутентификации в вебе, к которым пользователи уже привыкли (например, логин через Google).
10. Функции ESXi Quick Boot для защищенных систем
vSphere начала поддерживать Quick Boot еще с версии vSphere 6.7. Теперь хосты с поддержкой TPM 2.0 проходят через безопасный процесс загрузки и аттестации, что позволяет убедиться в неизменности хоста - а это надежный способ предотвратить атаки malware. Quick Boot теперь стал полноценно совместимым процессом в vSphere 8 Update 1.
11. Поддержка vSphere Fault Tolerance с устройствами vTPM
Функции непрерывной доступности VMware vSphere Fault Tolerance (FT) позволяют подхватить исполнение рабочей нагрузки на резервном хосте без простоя в случае проблем основной ВМ. Теперь эта функция поддерживает ВМ, настроенные с устройствами vTPM.
Модели Virtual TPM - это важный компонент инфраструктуры, используемый такими решениями, как Microsoft Device Guard, Credential Guard, Virtualization-Based Security, Secure Boot & OS attestation, а также многими другими. Это, зачастую, и часть регуляторных требований комплаенса.
12. Поддержка Nvidia NVSwitch
В рамках партнерства с NVIDIA, VMware продолжает расширять поддержку продуктового портфеля этого вендора.
Эта технология используется в high-performance computing (HPC) и для AI-приложений (deep learning, научное моделирование и анализ больших данных), что требует работы модулей GPU совместно в параллельном режиме. В современном серверном оборудовании различные приложения ограничены параметрами шины. Чтобы решить эту проблему, NVIDIA создала специальный коммутатор NVSwitch, который позволяет до 8 GPU взаимодействовать на максимальной скорости.
Вот нюансы технологий NVLink и NVSwitch:
NVLink - это бэкенд протокол для коммутаторов NVSwitch. NVLink создает мост для соединений точка-точка и может быть использован для линковки от 2 до 4 GPU на очень высокой скорости.
NVSwitch требует, чтобы более 4 GPU были соединены, а также использует поддержку vSphere 8U1 NVSwitch для формирования разделов из 2, 4 и 8 GPU для работы виртуальных машин.
NVLink использует архитектуру Hopper, что предполагает создания пары GPU, которые передают до 450 GB/s (то есть общая скорость до 900 GB/s).
Для сравнения архитектура Gen5 x16 может передавать на скорости до 64 GB/s, то есть NVLink и NVSwitch дают очень существенный прирост в скорости.
13. Функции VM DirectPath I/O Hot-Plug для NVMe
В прошлых релизах добавление или удаление устройств VM DirectPath IO требовало нахождения ВМ в выключенном состоянии. Теперь же в vSphere 8 Update 1 появилась поддержка горячего добавления и удаления устройств NVMe через vSphere API.
На этом пока все, в следующих статьях мы расскажем об улучшениях Core Storage в vSphere 8 Update 1.
Многие администраторы виртуальных инфраструктур используют технологию NVIDIA vGPU, чтобы разделить физический GPU-модуль между виртуальными машинами (например, для задач машинного обучения), при этом используется профиль time-sliced vGPU (он же просто vGPU - разделение по времени использования) или MIG-vGPU (он же Multi-Instance vGPU, мы писали об этом тут). Эти два режима позволяют выбрать наиболее оптимальный профиль, исходя из особенностей инфраструктуры и получить наибольшие выгоды от технологии vGPU.
Итак, давайте рассмотрим первый вариант - сравнение vGPU и MIG vGPU при увеличении числа виртуальных машин на GPU, нагруженных задачами машинного обучения.
В этом эксперименте была запущена нагрузка Mask R-CNN с параметром batch size = 2 (training and inference), в рамках которой увеличивали число ВМ от 1 до 7, и которые разделяли A100 GPU в рамках профилей vGPU и MIG vGPU. Эта ML-нагрузка была легковесной, при этом использовались различные настройки профилей в рамках каждого тестового сценария, чтобы максимально использовать время и память модуля GPU. Результаты оказались следующими:
Как мы видим, MIG vGPU показывает лучшую производительность при росте числа ВМ, разделяющих один GPU. Из-за использования параметра batch size = 2 для Mask R-CNN, задача тренировки в каждой ВМ использует меньше вычислительных ресурсов (используется меньше ядер CUDA) и меньше памяти GPU (менее 5 ГБ, в сравнении с 40 ГБ, который имеет каждый GPU). Несмотря на то, что vGPU показывает результаты похуже, чем MIG vGPU, первый позволяет масштабировать нагрузки до 10 виртуальных машин на GPU, а MIG vGPU поддерживает на данный момент только 7.
Второй вариант теста - vGPU и MIG vGPU при масштабировании нагрузок Machine Learning.
В этом варианте исследовалась производительность ML-нагрузок при увеличении их интенсивности. Был проведен эксперимент, где также запускалась задача Mask R-CNN, которую модифицировали таким образом, чтобы она имела 3 разных степени нагрузки: lightweight, moderate и heavy. Время исполнения задачи тренировки приведено на рисунке ниже:
Когда рабочая нагрузка в каждой ВМ использует меньше процессора и памяти, время тренировки и пропускная способность MIG vGPU лучше, чем vGPU. Разница в производительности между vGPU и MIG vGPU максимальна именно для легковесной нагрузки. Для moderate-нагрузки MIG vGPU также показывает себя лучше (но немного), а вот для тяжелой - vGPU уже работает производительнее. То есть, в данном случае выбор между профилями может быть обусловлен степенью нагрузки в ваших ВМ.
Третий тест - vGPU и MIG vGPU для рабочих нагрузок с высокой интенсивность ввода-вывода (например, Network Function with Encryption).
В этом эксперименте использовалось шифрование Internet Protocol Security (IPSec), которое дает как нагрузку на процессор, так и на подсистему ввода-вывода. Тут также используется CUDA для копирования данных между CPU и GPU для освобождения ресурсов процессора. В данном тесте IPSec использовал алгоритмы HMAC-SHA1 и AES-128 в режиме CBC. Алгоритм OpenSSL AES-128 CBC был переписан в рамках тестирования в части работы CUDA. В этом сценарии vGPU отработал лучше, чем MIG vGPU:
Надо сказать, что нагрузка эта тяжелая и использует много пропускной способности памяти GPU. Для MIG vGPU эта полоса разделяется между ВМ, а вот для vGPU весь ресурс распределяется между ВМ. Это и объясняет различия в производительности для данного сценария.
Основные выводы, которые можно сделать по результатам тестирования:
Для легковесных задач машинного обучения режим MIG vGPU даст бОльшую производительность, чем vGPU, что сэкономит вам деньги на инфраструктуру AI/ML.
Для тяжелых задач, где используются большие модели и объем входных данных (а значит и меньше ВМ работают с одним GPU), разница между профилями почти незаметна.
Для тяжелых задач, вовлекающих не только вычислительные ресурсы и память, но и подсистему ввода-вывода, режим vGPU имеет преимущество перед MIG vGPU, что особенно заметно для небольшого числа ВМ.
Компания VMware недавно выпустила пару интересных материалов о Project Monterey. Напомним, что продолжение развития технологии Project Pacific для контейнеров на базе виртуальной инфраструктуры, только с аппаратной точки зрения для инфраструктуры VMware Cloud Foundation (VCF).
Вендоры аппаратного обеспечения пытаются сделать высвобождение некоторых функций CPU, передав их соответствующим компонентам сервера (модуль vGPU, сетевая карта с поддержкой offload-функций и т.п.), максимально изолировав их в рамках необходимостей. Но вся эта новая аппаратная архитектура не будет хорошо работать без изменений в программной платформе.
Project Monterey - это и есть переработка архитектуры VCF таким образом, чтобы появилась родная интеграция новых аппаратных возможностей и программных компонентов. Например, новая аппаратная технология SmartNIC позволяет обеспечить высокую производительность, безопасность по модели zero-trust и простую эксплуатацию в среде VCF. За счет технологии SmartNIC инфраструктура VCF будет поддерживать операционные системы и приложения, исполняемые на "голом железе" (то есть без гипервизора).
Вот что нового в последнее время появилось о Project Monterey:
После выхода VMware vSphere 7 Update 2 появилось много интересных статей о разного рода улучшениях, на фоне которых как-то потерялись нововведения, касающиеся работы с большими нагрузками машинного обучения на базе карт NVIDIA, которые были сделаны в обновлении платформы.
А сделано тут было 3 важных вещи:
Пакет NVIDIA AI Enterprise Suite был сертифицирован для vSphere
Появилась поддержка последних поколений GPU от NVIDIA на базе архитектуры Ampere
Добавились оптимизации в vSphere в плане коммуникации device-to-device на шине PCI, что дает преимущества в производительности для технологии NVIDIA GPUDirect RDMA
Давайте посмотрим на все это несколько подробнее:
1. NVIDIA AI Enterprise Suite сертифицирован для vSphere
Основная новость об этом находится в блоге NVIDIA. Сотрудничество двух компаний привело к тому, что комплект программного обеспечения для AI-аналитики и Data Science теперь сертифицирован для vSphere и оптимизирован для работы на этой платформе.
Оптимизации включают в себя не только средства разработки, но и развертывания и масштабирования, которые теперь удобно делать на виртуальной платформе. Все это привело к тому, что накладные расходы на виртуализацию у задач машинного обучения для карточек NVIDIA практически отсутствуют:
2. Поддержка последнего поколения NVIDIA GPU
Последнее поколение графических карт для ML-задач, Ampere Series A100 GPU от NVIDIA, имеет поддержку Multi-Instance GPU (MIG) и работает на платформе vSphere 7 Update 2.
Графический процессор NVIDIA A100 GPU, предназначенный для задач машинного обучения и самый мощный от NVIDIA на сегодняшний день в этой нише, теперь полностью поддерживается вместе с технологией MIG. Более детально об этом можно почитать вот тут. Также для этих карт поддерживается vMotion и DRS виртуальных машин.
Классический time-sliced vGPU подход подразумевает выполнение задач на всех ядрах GPU (они же streaming multiprocessors, SM), где происходит разделение задач по времени исполнения на базе алгоритмов fair-share, equal share или best effort (подробнее тут). Это не дает полной аппаратной изоляции и работает в рамках выделенной framebuffer memory конкретной виртуальной машины в соответствии с политикой.
При выборе профиля vGPU на хосте с карточкой A100 можно выбрать объем framebuffer memory (то есть памяти GPU) для виртуальной машины (это число в гигабайтах перед буквой c, в данном случае 5 ГБ):
Для режима MIG виртуальной машине выделяются определенные SM-процессоры, заданный объем framebuffer memory на самом GPU и выделяются отдельные пути коммуникации между ними (cross-bars, кэши и т.п.).
В таком режиме виртуальные машины оказываются полностью изолированы на уровне аппаратного обеспечения. Выбор профилей для MIG-режима выглядит так:
Первая цифра сразу после a100 - это число слайсов (slices), которые выделяются данной ВМ. Один слайс содержит 14 процессоров SM, которые будут использоваться только под эту нагрузку. Число доступных слайсов зависит от модели графической карты и числа ядер GPU на ней. По-сути, MIG - это настоящий параллелизм, а обычный режим работы - это все же последовательное выполнение задач из общей очереди.
Например, доступные 8 memory (framebuffers) слотов и 7 compute (slices) слотов с помощью профилей можно разбить в какой угодно комбинации по виртуальным машинам на хосте (необязательно разбивать на равные части):
3. Улучшения GPUDirect RDMA
Есть классы ML-задач, которые выходят за рамки одной графической карты, какой бы мощной она ни была - например, задачи распределенной тренировки (distributed training). В этом случае критически важной становится коммуникация между адаптерами на нескольких хостах по высокопроизводительному каналу RDMA.
Механизм прямой коммуникации через шину PCIe реализуется через Address Translation Service (ATS), который является частью стандарта PCIe и позволяет графической карточке напрямую отдавать данные в сеть, минуя CPU и память хоста, которые далее идут по высокоскоростному каналу GPUDirect RDMA. На стороне приемника все происходит полностью аналогичным образом. Это гораздо более производительно, чем стандартная схема сетевого обмена, об этом можно почитать вот тут.
Режим ATS включен по умолчанию. Для его работы карточки GPU и сетевой адаптер должны быть назначены одной ВМ. GPU должен быть в режиме Passthrough или vGPU (эта поддержка появилась только в vSphere 7 U2). Для сетевой карты должен быть настроен проброс функций SR-IOV к данной ВМ.
Более подробно обо всем этом вы можете прочитать на ресурсах VMware и NVIDIA.
При описании новых возможностей VMware vSphere 7 мы рассказывали о функциях платформы, появившихся в результате приобретения VMware компании Bitfusion. Эти возможности позволяют оптимизировать использование графических процессоров GPU в пуле по сети, когда vGPU может быть частично расшарен между несколькими ВМ. Это может применяться для рабочих нагрузок задач AI/ML (например, для приложений, использующих PyTorch и/или TensorFlow).
Все это позволяет организовать вычисления таким образом, что хосты ESXi с аппаратными модулями GPU выполняют виртуальные машины, а их ВМ-компаньоны на обычных серверах ESXi исполняют непосредственно приложения. При этом CUDA-инструкции от клиентских ВМ передаются серверным по сети.
Технология эта называлась FlexDirect, теперь это продукт vSphere Bitfusion:
На днях это продукт стал доступен для загрузки и использования в онпремизных инфраструктурах.
Возможность динамической привязки GPU к любой машине в датацентре, по аналогии с тем, как вы привязываете к ней хранилище.
Возможность использования ресурсов GPU как одной машине, так и разделения его между несколькими. При этом администратор может выбрать, какой объем Shares выделить каждой из машин, то есть можно приоритизировать использование ресурсов GPU между потребителями.
Возможность предоставления доступа как по TCP/IP, так и через интерфейс RDMA, который может быть организован как подключение Infiniband или RoCE (RDMA over Converged Ethernet). О результатах тестирования такого сетевого взаимодействия вы можете почитать тут.
Передача инструкций к серверным машинам и обратно на уровне CUDA-вызовов. То есть это решение не про передачу содержимого экрана как VDI, а про высокопроизводительные вычисления.
Прозрачная интеграция - с точки зрения приложений менять в инфраструктуре ничего не нужно.
Для управления инфраструктурой доставки ресурсов GPU используется продукт vSphere Bitfusion Manager, который и позволяет гибко распределять ресурсы между потребителями. Раньше он выглядел так:
Теперь же он интегрирован в vSphere Client как плагин:
Архитектура Bitfusion позволяет разделить виртуальную инфраструктуру VMware vSphere на ярусы: кластер GPU, обсчитывающий данные, и кластер исполнения приложений пользователей, которые вводят данные в них и запускают расчеты. Это дает гибкость в обслуживании, управлении и масштабировании.
С точки зрения лицензирования, решение vSphere Bitfusion доступно как аддон для издания vSphere Enterprise Plus и лицензируется точно так же - по CPU. Для других изданий vSphere, увы, этот продукт недоступен.
На сайте проекта VMware Labs появилась еще одна узкоспециализированная, но интересная штука - проект Supernova. С помощью данного интерфейса разработчики решений, использующих машинное обучение (Machine Learning), могут создавать свои проекты на базе различных открытых библиотек с поддержкой технологий аппаратного ускорения графики.
Типа таких:
Проект Supernova поддерживает все самые популярные технологии аппаратного ускорения 3D-графики:
Nvidia GPU
Intel IPU/VPU
Intel FPGA
Google (Edge) TPU
Xilinx FGPA, AMD GPU
Для работы Supernova поддерживается ОС Ubuntu или CentOS с контейнерным движком Docker. Сфера применения решения очень широка - распознавание лиц (пол, возраст, эмоции), номерных знаков автомобилей, задача классификации объектов и многое другое.
В качестве тулкитов совместно с Supernova можно использовать следующие:
OpenVINO
SynapseAI
TensorRT
Tensorflow Lite
Vitis
RoCm
Данные для тренировки нейронных сетей могут быть представлены в форматах Tensorflow, Caffe, ONNX и MxNet. Примеры работы с ними представлены в документации, которую можно скачать вместе с пакетом.
Скачать само решение Supernova можно по этой ссылке.
Недавно мы писали о новых возможностях платформы виртуализации VMware vSphere 7, а также функциональности нового механизма динамического распределения нагрузки VMware DRS 2.0. Среди новых возможностей DRS мы упоминали про функции Assignable Hardware, которые позволяют назначить профили устройств PCIe с поддержкой Dynamic DirectPath I/O или NVIDIA vGPU для первоначального размещения виртуальных машин в кластере.
Сегодня мы поговорим об этой технологии в целом. Ранее виртуальные машины, использовавшие технологии DirectPath I/O или vGPU, привязывались к физическому адресу устройства, который включал в себя адрес расположения устройства на конкретной шине PCIe конкретного хоста ESXi. Это делало невозможным использование такой ВМ на других серверах кластера, что, конечно же, делало невозможным и работу технологий HA и DRS, которые являются критически важными в современных датацентрах.
Теперь же технология Assignable Hardware вводит новый уровень абстракции, который включает в себя профиль с возможностями устройств, требующихся для виртуальной машины. Таких профилей два - для технологии Dynamic DirectPath I/O и для NVIDIA vGPU:
Таким образом, технология Assignable Hardware позволяет отделить виртуальную машину от конкретного устройства и дать ей возможность быть запущенной на другом хосте ESXi с таким же устройством (или даже другим, но поддерживающим определенный набор функций).
Теперь при настройке виртуальной машины у вас есть выбор одного из следующих вариантов для устройства PCIe:
DirectPath I/O (legacy-режим, без интеграции с HA и DRS)
Dynamic DirectPath I/O
NVIDIA vGPU
После того, как вы выберете нужный профиль оборудования, механизм DRS сможет разместить машину на хосте ESXi с поддержкой нужных функций для ВМ.
На скриншоте выше, во второй опции Select Hardware, также есть лейбл "GPGPU example" - это возможность задать определенным устройствам метки таким образом, чтобы при выборе размещения ВМ использовались только устройства хостов с данными метками (при этом модели устройств могут отличаться, например, NVIDIA T4 GPU и RTX6000 GPU). Либо можно выбрать вариант использования только идентичных устройств.
Назначить метку можно во время конфигурации PCIe-устройств. В гифке ниже показано, как это делается:
При использовании NVIDIA vGPU для виртуальной машины выделяется только часть устройства. Поддержка горячей миграции vMotion для машин, использующих vGPU, уже была анонсирована в VMware vSphere 6.7 Update 1. Теперь эта поддержка была расширена, в том числе для DRS, который теперь учитывает профили vGPU.
Ну и в видео ниже вы можете увидеть обзор технологии Assignable Hardware:
Таги: VMware, vSphere, Hardware, NVIDIA, vGPU, VMachines, DRS, vMotion, HA
Вы все, конечно же, в курсе, что графические карты уже давно используются не только для просчета графики в играх и требовательных к графике приложениях, но и для вычислительных задач. Сегодня процессоры GPGPU (General Purpose GPU) используются в ИТ-инфраструктурах High Performance Computing (HPC) для решения сложных задач, в том числе машинного обучения (Machine Learning, ML), глубокого обучения (Deep Learning, DL) и искусственного интеллекта (Artificial Intelligence, AI).
Эти задачи, зачастую, хорошо параллелятся, а архитектура GPU (по сравнению с CPU) лучше приспособлена именно для такого рода задач, так как в графических платах сейчас значительно больше вычислительных ядер:
Кроме того, архитектура CPU больше заточена на решение последовательных задач, где параметры рассчитываются друг за другом, а архитектура GPU позволяет независимо просчитывать компоненты задачи на разных процессорных кластерах, после чего сводить итоговый результат.
Вот так, если обобщить, выглядит архитектура CPU - два уровня кэша на базе каждого из ядер и общий L3-кэш для шаринга данных между ядрами:
Число ядер на CPU может достигать 32, каждое из которых работает на частоте до 3.8 ГГц в турбо-режиме.
Графическая карта имеет, как правило, только один уровень кэша на уровне вычислительных модулей, объединенных в мультипроцессоры (Streaming Multiprocessors, SM), которые, в свою очередь, объединяются в процессорные кластеры:
Также в видеокарте есть L2-кэш, который является общим для всех процессорных кластеров. Набор процессорных кластеров, имеющих собственный контроллер памяти и общую память GDDR-5 называется устройство GPU (GPU Device). Как видно, архитектура GPU имеет меньше уровней кэша (вместо транзисторов кэша на плату помещаются вычислительные блоки) и более толерантна к задержкам получения данных из памяти, что делает ее более пригодной к параллельным вычислениям, где задача локализуется на уровне отдельного вычислительного модуля.
Например, если говорить об устройствах NVIDIA, то модель Tesla V100 содержит 80 мультипроцессоров (SM), каждый из которых содержит 64 ядра, что дает в сумме 5120 ядер! Очевидно, что именно такие штуки надо использовать для задач ML/DL/AI.
Платформа VMware vSphere поддерживает технологию vGPU для реализации такого рода задач и возможности использования виртуальными машинами выделенных ВМ модулей GPU. В первую очередь, это все работает для карточек NVIDIA GRID, но и для AMD VMware также сделала поддержку, начиная с Horizon 7 (хотя и далеко не в полном объеме).
Еще одна интересная архитектура для решения подобных задач - это технология FlexDirect от компании BitFusion. Она позволяет организовать вычисления таким образом, что хосты ESXi с модулями GPU выполняют виртуальные машины, а их ВМ-компаньоны на обычных серверах ESXi исполняют непосредственно приложения. При CUDA-инструкции от клиентских ВМ передаются серверным по сети:
Обмен данными может быть организован как по TCP/IP, так и через интерфейс RDMA, который может быть организован как подключение Infiniband или RoCE (RDMA over Converged Ethernet). О результатах тестирования такого сетевого взаимодействия вы можете почитать тут.
При этом FlexDirect позволяет использовать ресурсы GPU как только одной машине, так и разделять его между несколькими. При этом администратор может выбрать, какой объем Shares выделить каждой из машин, то есть можно приоритизировать использование ресурсов GPU.
Такая архитектура позволяет разделить виртуальную инфраструктуру VMware vSphere на ярусы: кластер GPU, обсчитывающий данные, и кластер исполнения приложений пользователей, которые вводят данные в них и запускают расчеты. Это дает гибкость в обслуживании, управлении и масштабировании.
Как многие из вас знают, в последней версии платформы виртуализации VMware vSphere 6.7 Update 1 компания VMware сделала поддержку горячей миграции vMotion для виртуальных машин, которые имеют на борту технологию vGPU в целях прямого использования ресурсов видеокарт NVIDIA.
Напомним, что ранее была введена поддержка операций Suspend/Resume для GRID, а теперь появилась и поддержка горячей миграции vMotion для машин с привязкой к карточкам NVIDIA Quadro vDWS.
Между тем, по умолчанию эта поддержка для виртуальных машин отключена, и чтобы начать пользоваться этой функцией нужно внести изменения в настройки vCenter. Если вы попробуете сделать vMotion машины с vGPU, то получите вот такую ошибку:
Migration was temporarily disabled due to another migration activity. vGPU hot migration is not enabled.
Вильям Лам написал о том, как включить поддержку vMotion в этой ситуации. Вам надо пойти в Advanced Settings на сервере vCenter и поставить там значение true на настройки vgpu.hotmigrate.enabled:
Эта настройка также рассматривается в документации вот тут. Надо отметить, что вступает в действие она сразу же, и вы можете делать не только vMotion, но и Storage vMotion любой машины (одновременно с vMotion, кстати). Помните, что для успешной работы vMotion на всех хостах ESXi должны быть карточки NVIDIA GRID и установлен соответствующий VIB-пакет.
Также установить эту настройку можно и с помощью командлета PowerCLI:
Мы много писали о рещениях NVIDIA GRID / Quadro vDWS (они используют технологии virtual GPU или vGPU), например здесь, здесь и здесь. Ранее эта технология предполагала только применение vGPU для нагрузок в виртуальных машинах, которые требовательны к графике, поэтому используют ресурсы графического адаптера в разделенном режиме.
Между тем, начиная с недавнего времени (а именно с выпуска архитектуры Pascal GPU), VMware и NVIDIA предлагают использование vGPU для задач машинного обучения (CUDA / Machine Learning / Deep Learning), которые в последнее время становятся все более актуальными, особенно для крупных компаний. С помощью этой технологии виртуальная машина с vGPU на борту может эффективно использовать библиотеки TensorFlow, Keras, Caffe, Theano, Torch и прочие.
Например, можно создать использовать профиль P40-1q vGPU для архитектуры Pascal P40 GPU, что позволит иметь до 24 виртуальных машин на одном физическом адаптере (поскольку на устройстве 24 ГБ видеопамяти).
Зачем же использовать vGPU для ML/DL-задач, ведь при исполнении тяжелой нагрузки (например, тренировка сложной нейронной сети) загружается все устройство? Дело в том, что пользователи не используют на своих машинах 100% времени на исполнение ML/DL-задач. Большинство времени они собирают данные и подготавливают их, а после исполнения задачи интерпретируют результаты и составляют отчеты. Соответственно, лишь часть времени идет большая нагрузка на GPU от одного или нескольких пользователей. В этом случае использование vGPU дает максимальный эффект.
Например, у нас есть 3 виртуальных машины, при этом тяжелая нагрузка у VM1 и VM2 пересекается только 25% времени. Нагрузка VM3 не пересекается с VM1 и VM2 во времени:
Компания VMware проводила тест для такого случая, используя виртуальные машины CentOS с профилями P40-1q vGPU, которые имели 12 vCPU, 60 ГБ памяти и 96 ГБ диска. Там запускались задачи обучения TensorFlow, включая комплексное моделирование для рекуррентной нейронной сети (recurrent neural network, RNN), а также задача распознавания рукописного текста с помощью сверточной нейронной сети (convolution neural network, CNN). Эксперимент проводился на серверах Dell PowerEdge R740 с 18-ядерным процессором Intel Xeon Gold 6140 и карточками NVIDIA Pascal P40 GPU.
Результаты для первого теста оказались таковы:
Время обучения из-за наложения окон нагрузки в среднем увеличилось на 16-23%, что в целом приемлемо для пользователей, разделяющих ресурсы на одном сервере. Для второго теста было получено что-то подобное:
Интересен тест, когда все нагрузки исполнялись в одном временном окне по следующей схеме:
Несмотря на то, что число загруженных ML/DL-нагрузкой виртуальных машин увеличилось до 24, время тренировки нейронной сети увеличилось лишь в 17 раз, то есть даже в случае полного наложения временных окон рабочих нагрузок есть некоторый позитивный эффект:
Интересны также результаты с изменением политики использования vGPU. Некоторые знают, что у планировщика vGPU есть три режима работы:
Best Effort (это исполнение задач на вычислительных ядрах по алгоритму round-robin).
Equal Share (всем дается одинаковое количество времени GPU - это позволяет избежать влияния тяжелых нагрузок на легкие машины, например).
Fixed Share (планировщик дает фиксированное время GPU на основе профиля нагрузки vGPU).
VMware поэкспериментировала с настройками Best Effort и Equal Share для тех же тестов, и вот что получилось:
С точки зрения времени исполнения задач, настройка Best Effort оказалась лучшим выбором, а вот с точки зрения использования GPU - Equal Sharing меньше грузила графический процессор:
Некоторые из вас (особенно администраторы VMware Horizon 7.5) знают, что в последней версии VMware vSphere 6.7 появилась возможность приостанавливать виртуальные машины, использующие vGPU, с высвобождением ресурсов графического адаптера под другие задачи. Ранее ресурсы графической карты возвращались платформе только при выключении виртуальной машины.
На эту тему VMware записала небольшое видео с демонстрацией данной возможности:
Для демо используются два 2 пула ресурсов: первый - под два виртуальных десктопа VMware Horizon, а второй - под две машины, использующие ресурсы vGPU для расчета моделей с помощью библиотеки машинного обучения TensorFlow.
Все 4 машины настраивают на использование политики, которая привязана к адаптеру NVIDIA Tesla P40 и позволяет использовать до половины ресурсов видеокарты. Сначала включают 2 виртуальных ПК Horizon, которые съедают всю карту, поэтому остальные две машины включить не удается. Но затем десктопы приостанавливают (Suspend), после чего машины с TensorFlow становится возможно запустить. Ну и в заключение тушат одну из машин TensorFlow, после чего успешно запускают один из виртуальных ПК Horizon (Resume).
Производитель графических адаптеров NVIDIA также записала небольшое демо своей технологии GRID для vSphere 6.7:
Здесь рассматривается несколько другой кейс. Десктоп с AutoCAD внутри ставят на паузу, после чего его обслуживают администраторы датацентра, не боясь того, что пользователь не сохранил свои данные в САПР. Затем после обслуживания десктоп запускают - и пользователь спокойно продолжает работу.
В общем, это нововведение весьма удобная и полезная штука.
Эта статья предназначена в помощь администраторам VDI, которые обновили свои хосты ESXi, оснащенные картами GRID vGPU, до vSphere версии 6.5. Как сказано Джереми Майном в этом форуме NVIDIA, vSphere 6.5 и драйвер GRID от ноября 2016 требует изменения режима GPU с «Shared» (vSGA) на «Shared Direct» (vGPU) через веб-клиент для включения поддержки режима vGPU виртуальными машинами...
Интересный пост вышел на одном из блогов компании VMware о производительности протокола VMware Horizon Blast Extreme, который используется совместно с технологией построения инфраструктуры производительных виртуальных десктопов NVIDIA GRID.
Не так давно мы писали о новых возможностях VMware Horizon 7, одной из которых стало полноценное включение протокола Blast Extreme на основе видеокодека H.264 в стек используемых протоколов наряду с PCoIP и RDP. Совместно с решением NVIDIA GRID производительность протокола Blast Extreme значительно возрастает, давайте посмотрим насколько.
В тесте команды NVIDIA GRID Performance Engineering Team использовался симулятор рабочей нагрузки ESRI ArcGIS Pro 1.1, который воспроизводил типичные действия пользователей а в качестве основных метрик снимались задержки (latency), фреймрейт (FPS), требуемая полоса пропускания (bandwidth) и прочие. При этом проводилось сравнение Blast Extreme (в программном варианте и при аппаратном ускорении GRID) с протоколом PCoIP, который широко используется в настоящий момент.
Благодаря ускорению обработки кодирования/декодирования на аппаратном уровне, уменьшаются задержки при выполнении операций (за счет ускорения обработки на стороне сервера):
Blast Extreme уменьшает задержку аж на 51 миллисекунду по сравнению с традиционным PCoIP.
По результатам теста для FPS производительность Blast Extreme превосходит PCoIP на целых 37%:
Для 19 виртуальных машин на одном сервере в тесте ESRI ArcGIS Pro 1.1 необходимая полоса пропускания для Blast Extreme была ниже на 19%, чем для PCoIP (и это без потерь качества картинки):
Благодаря кодеку H.264, который передает нагрузку на сторону выделенных аппаратных движков NVIDIA GPU, снижается нагрузка на центральный процессор хост-сервера VMware ESXi на 16%:
При этом удалось добиться увеличения числа пользователей на сервере ESXi на 18%, а это 3 человека на сервер.
Понятно, что тест ESRI ArcGIS Pro 1.1 не является универсальной нагрузкой, но в целом можно сказать, что Blast Extreme при аппаратном ускорении повышает производительность процентов на 15.
Мы уже писали о том, что последней версии решения для виртуализации настольных ПК VMware Horizon View 6.2 есть поддержка режима vGPU. Напомним, что это самая прогрессивная технология NVIDIA для поддержки требовательных к производительности графической подсистемы виртуальных десктопов.
Ранее мы уже писали про режимы Soft 3D, vSGA и vDGA, которые можно применять для виртуальных машин, использующих ресурсы графического адаптера на стороне сервера.
Напомним их:
Soft 3D - рендеринг 3D-картинки без использования адаптера на основе программных техник с использованием памяти сервера.
vDGA - выделение отдельного графического адаптера (GPU) одной виртуальной машине.
vSGA - использование общего графического адаптера несколькими виртуальными машинами.
Режим vSGA выглядит вот так:
Здесь графическая карта представляется виртуальной машине как программный видеодрайвер, а графический ввод-вывод обрабатывается через специальный драйвер в гипервизоре - ESXi driver (VIB-пакет). Команды обрабатываются по принципу "first come - first serve".
Режим vDGA выглядит вот так:
Здесь уже физический GPU назначается виртуальной машине через механизм проброса устройств DirectPath I/O. То есть целый графический адаптер потребляется виртуальной машиной, что совсем неэкономно, но очень производительно.
В этом случае специальный драйвер NVIDIA GPU Driver Package устанавливается внутри виртуальной машины, а сам режим полностью поддерживается в релизах Horizon View 5.3.х и 6.х (то есть это давно уже не превью и не экспериментальная технология). Этот режим работает в графических картах K1 и K2, а также и более свежих адаптерах, о которых речь пойдет ниже.
Режим vGPU выглядит вот так:
То есть встроенный в гипервизор NVIDIA vGPU Manager (это тоже драйвер в виде пакета ESXi VIB) осуществляет управление виртуальными графическими адаптерами vGPU, которые прикрепляются к виртуальным машинам в режиме 1:1. В операционной системе виртуальных ПК также устанавливается GRID Software Driver.
Здесь уже вводится понятие профиля vGPU (Certified NVIDIA vGPU Profiles), который определяет типовую рабочую нагрузку и технические параметры десктопа (максимальное разрешение, объем видеопамяти, число пользователей на физический GPU и т.п.).
vGPU можно применять с первой версией технологии GRID 1.0, которая поддерживается для графических карт K1 и K2:
Но если мы говорим о последней версии технологии GRID 2.0, работающей с адаптерами Tesla M60/M6, то там все устроено несколько иначе. Напомним, что адаптеры Tesla M60 предназначены для Rack/Tower серверов с шиной PCIe, а M6 - для блейд-систем различных вендоров.
Технология NVIDIA GRID 2.0 доступна в трех версиях, которые позволяют распределять ресурсы между пользователями:
Характеристики данных лицензируемых для адаптеров Tesla изданий представлены ниже:
Тут мы видим, что дело уже не только в аппаратных свойствах графической карточки, но и в лицензируемых фичах для соответствующего варианта использования рабочей нагрузки.
Каждый "experience" лицензируется на определенное число пользователей (одновременные подключения) для определенного уровня виртуальных профилей. Поэтому в инфраструктуре GRID 2.0 добавляется еще два вспомогательных компонента: Licensing Manager и GPU Mode Change Utility (она нужна, чтобы перевести адаптер Tesla M60/M6 из режима compute mode в режим graphics mode для работы с соответствующим типом лицензии виртуальных профилей).
Обратите внимание, что поддержка гостевых ОС Linux заявлена только в последних двух типах лицензий.
На данный момент сертификацию драйверов GRID прошло следующее программное обеспечение сторонних вендоров (подробнее об этом тут):
Спецификации карточек Tesla выглядят на сегодняшний день вот так:
Поддержка также разделена на 2 уровня (также прикрепляется к лицензии):
Руководство по развертыванию NVIDIA GRID можно скачать по этой ссылке, ну а в целом про технологию написано тут.