Российское ПО

VMware

Veeam

StarWind

vStack

Microsoft

Citrix

Symantec

Все самое нужное о виртуализации и облаках

Более 6520 заметок о VMware, AWS, Azure, Veeam, Kubernetes и других

VM Guru | Ссылка дня: Полный список лабораторных работ VMware Hands-on Labs

Развертывание VMware Private AI Foundation with NVIDIA с использованием VCF Automation

В видеоролике ниже демонстрируется процесс развертывания решения Private AI Foundation с NVIDIA с использованием мастера быстрой настройки.

Автор пошагово показывает, как запустить Foundation Quick Start, выбрать проект и соответствующее пространство имен (namespace), а также вставить клиентский конфигурационный токен, полученный от NVIDIA. В примере используется среда с подключением к интернету, поэтому дополнительные параметры, такие как офлайн-реестр или изменение расположения драйверов, настраивать не требуется.

Далее в видео подробно рассматриваются ключевые параметры развертывания:

Выбор версии Kubernetes (или VKR).
Указание образа виртуальной машины для задач глубокого обучения (Deep Learning VM), заранее загруженного в библиотеку контента.
Выбор класса хранилища (storage class).
Настройка GPU-совместимых классов ВМ (резервирование GPU).
Выбор классов ВМ без поддержки GPU.

Также демонстрируется, что в рамках примера не активируются дополнительные сервисы VCF Data Services и не используется прокси-сервер.

После проверки всех параметров запускается процесс создания ресурсов каталога в выбранном пространстве имен. Через несколько минут новые элементы становятся доступны в разделе Build and Deploy -> Catalog, где можно увидеть созданные позиции Private AI Foundation с NVIDIA и при необходимости запросить их для дальнейшего использования.

Видео будет полезно администраторам и инженерам, занимающимся развертыванием инфраструктуры для задач искусственного интеллекта и машинного обучения в среде Kubernetes с поддержкой GPU.

Таги: VMware, Private AI, Automation, NVIDIA, AI

Развертывание VMware Private AI на серверах HGX с использованием Broadcom Ethernet Networking

AI и генеративный AI (Gen AI) требуют значительной инфраструктуры, а задачи, такие как тонкая настройка, кастомизация, развертывание и выполнение запросов, могут сильно нагружать ресурсы. Масштабирование этих операций становится проблематичным без достаточной инфраструктуры. Кроме того, необходимо соответствовать различным требованиям в области комплаенса и законодательства в разных отраслях и странах. Решения на базе Gen AI должны обеспечивать контроль доступа, правильное размещение рабочих нагрузок и готовность к аудиту для соблюдения этих стандартов. Чтобы решить эти задачи, Broadcom представила VMware Private AI, которая помогает клиентам запускать модели рядом с их собственными данными. Объединяя инновации обеих компаний, Broadcom и NVIDIA стремятся раскрыть потенциал AI и повысить производительность при более низкой совокупной стоимости владения (TCO).

Технический документ «Развертывание VMware Private AI на серверах HGX с использованием Broadcom Ethernet Networking» подробно описывает сквозное развертывание и конфигурацию, с акцентом на DirectPath I/O (passthrough) для GPU, а также сетевые адаптеры Thor 2 с Ethernet-коммутатором Tomahawk 5. Это руководство необходимо архитекторам инфраструктуры, администраторам VCF и специалистам по data science, которые стремятся достичь оптимальной производительности своих AI-моделей в среде VCF.

Что охватывает этот документ?

Документ предоставляет детальные рекомендации по следующим направлениям:

Адаптеры Broadcom Thor 2 и GPU NVIDIA: как эффективно интегрировать сетевые карты Broadcom и GPU NVIDIA в виртуальные машины глубокого обучения (DLVM) на базе Ubuntu в среде VMware Cloud Foundation (VCF).
Сетевая конфигурация: пошаговые инструкции по настройке Ethernet-адаптеров Thor 2 и коммутаторов Tomahawk 5 для включения RoCE (RDMA over Converged Ethernet) с GPU NVIDIA, что обеспечивает низкую задержку и высокую пропускную способность, критически важные для AI-нагрузок.
Тестирование производительности: процедуры запуска тестов с использованием ключевых библиотек коллективных коммуникаций, таких как NCCL, для проверки эффективности многопроцессорных GPU-операций.
Инференс LLM: рекомендации по запуску и тестированию инференса больших языковых моделей (LLM) с помощью NVIDIA Inference Microservices (NIM) и vLLM, демонстрирующие реальный прирост производительности.

Ключевые особенности решения

Решение, описанное в документе, ориентировано на сертифицированные системы VMware Private AI на базе HGX, которые обычно оснащены 4 или 8 GPU H100/H200 с интерконнектом NVSwitch и NVLink. Целевая среда — это приватное облако на базе VCF, использующее сетевые адаптеры Broadcom 400G BCM957608 NICs и кластеризированные GPU NVIDIA H100, соединённые через Ethernet.

Ключевой аспект данного развертывания — использование DirectPath I/O для GPU и адаптеров Thor2, что обеспечивает выделенный доступ к аппаратным ресурсам и максимальную производительность. В руководстве также подробно рассматриваются следующие важные элементы:

BIOS и прошивки: рекомендуемые конфигурации для серверов HGX, позволяющие раскрыть максимальную производительность.
Настройки ESX: оптимизация ESX для passthrough GPU и сетевых устройств, включая корректную разметку оборудования и конфигурацию ACS (Access Control Services).
Настройки виртуальных машин: кастомизация Deep Learning VM (DLVM) для DirectPath I/O, включая назначение статических IP и важные расширенные параметры ВМ для ускоренного запуска и повышения производительности.

Валидация производительности

Подробные инструкции по запуску RDMA, GPUDirect RDMA с Perftest и тестов NCCL на нескольких узлах с разъяснением ожидаемой пропускной способности и задержек.
Бенчмаркинг виртуальной и bare-metal производительности Llama-3.1-70b NIM с помощью genai-perf, позволяющий достичь результатов, близких к bare-metal.
Использование evalscope для оценки точности и стресс-тестирования производительности передовой модели рассуждений gpt-oss-120b.

Вот интересный результат из исследования, доказывающий, что работа GPU в виртуальной среде ничем не хуже, чем в физической:

Это комплексное руководство является ценным ресурсом для всех, кто стремится развернуть и оптимизировать AI-инференс на надежной виртуальной инфраструктуре с использованием серверов NVIDIA HGX и сетевых решений Broadcom Ethernet. Следуя описанным в документе лучшим практикам, организации могут создавать масштабируемые и высокопроизводительные AI-платформы, соответствующие требованиям современных приложений глубокого обучения.

Чтобы подробнее ознакомиться с техническими деталями и процедурами развертывания, рекомендуем прочитать полный документ:
https://www.vmware.com/docs/paif-hgx-brcm-eth.

Таги: VMware, Private AI, GenAI, Performance, NVIDIA, Hardware

VMware Cloud Foundation 9.0 как AI-native платформа: что именно изменилось

На конференции VMware Explore 2025 компания Broadcom объявила, что службы VMware Private AI Services теперь входят в стандартную поставку VMware Cloud Foundation 9.0 (VCF 9.0). То есть VCF превращается в полноценную AI-native платформу частного облака: из коробки доступны (или будут доступны) сервисы для работы с моделями, наблюдаемость за GPU, среда исполнения для моделей и агент-фреймворк, плюс дорожная карта с MCP, multi-accelerator и AI-ассистентом для VCF.

Платформа VCF 9.0 уже находится в статусе General Availability и доступна с июня 2025, а выход служб Private AI Services в составе подписки планируется к началу первого квартала 2026 финансового года Broadcom.

Давайте посмотрим на состав и функции VMware Private AI Services:

Слой AI-сервисов в VCF 9.0

Что «входит по умолчанию» в Private AI Services (становится частью подписки VCF 9.0):

GPU Monitoring — телеметрия и наблюдаемость графических карт.
Model Store — репозиторий и версионирование моделей.
Model Runtime — сервисный слой для развертывания/экспонирования моделей (endpoints).
Agent Builder — сборка/оркестрация «агентов» поверх LLM.
Vector Database & Data Indexing/Retrieval — индексация корпоративных данных и RAG-потоки.

Эти возможности поставляются как native services платформы, а не «надстройка» — и это важная архитектурная деталь: AI становится частью инфраструктуры, живущей в тех же сущностных/безопасностных доменах, что и виртуальные машины и контейнеры.

Также были анонсированы следуюие продукты и технологии в рамках дорожной карты:

Intelligent Assist for VCF — LLM-ассистент для диагностики и самопомощи в VCF (пока как tech preview для on-prem/air-gapped и cloud-моделей).
Model Context Protocol (MCP) — стандартная, управляемая интеграция ассистентов с инструментами и БД (Oracle, MSSQL, ServiceNow, GitHub, Slack, PostgreSQL и др.).
Multi-accelerator Model Runtime — единая среда исполнения для AMD и NVIDIA GPU без переработки приложений; поддержка NVIDIA Blackwell, B200, ConnectX-7/BlueField-3 с технологией Enhanced DirectPath I/O.
Multi-tenant Models-as-a-Service — безопасное шаринг-использование моделей между пространствами имен/линиями бизнеса.

Ядро VCF 9.0: что поменялось в самой платформе

Единая операционная плоскость

VCF 9.0 переносит фокус на «One interface to operate» (VCF Operations) и «One interface to consume» (VCF Automation): единая модель политик, API и общий движок жизненного цикла. Это снижает расхождение инструментов и обучаемость. На практике это дает унифицированное управление инфраструктурой, health/patch/compliance из одной консоли, централизованные функции IAM/SSO/сертификатов, анализ корреляции логов и другие возможности.

Примеры экранов и функций, доступных в VCF Operations: обзор по всем инстансам, геокарта, статус сертификатов с автообновлением, NetOps-дэшборды (NSX health, VPC, flows), интеграция Live Recovery и LogAssist.

Слой потребления (для разработчиков/проектных команд)

GitOps (Argo CD) как встроенная модель доставки, Istio Service Mesh для zero-trust/observability трафика, единый контроль политик по проектам.
vSphere Kubernetes Service (VKS) — функции enterprise-K8s, доступные прямо из VCF.
Native vSAN S3 Object Store — S3-совместимый API хранилища объектов на vSAN, без внешних лицензий/модулей.

Все это — официальные «новые в 9.0» элементы, влияющие на скорость доставки сервисов и безопасность.

Производительность и эффективность

NVMe Memory Tiering — расширение оперативной памяти за счет NVMe для высокочастотных/in-memory нагрузок.
vSAN Global Deduplication (ESA) — постпроцессинговая глобальная дедупликация на уровне кластера.
Улучшенные data paths + опциональный DPU offload — снижение задержек в east-west контуре, предсказуемость отклика.

Безопасность, соответствие и контроль затрат

Security Operations Dashboard - непрерывный compliance-сканер (CIS/NIST/кастомные baselines), identity & cert management, «drift»-контроль.
Встроенные chargeback/showback и cost dashboards (TCO-прозрачность, прогнозирование, возврат/reclaim неиспользуемых ресурсов).

Аппаратные улучшения/сетевой стек для AI

VCF 9.0 выравнивает работу «больших» AI-нагрузок на частной инфраструктуре:

Поддержка NVIDIA Blackwell (включая RTX PRO 6000 Blackwell Server Edition, B200, HGX с NVSwitch), GPUDirect RDMA/Storage, Enhanced DirectPath I/O - при этом сохраняются «классические» возможности vSphere (vMotion, HA, DRS, Live Patching).
Совместная работа с AMD: ROCm Enterprise AI и Instinct MI350 для задач fine-tuning/RAG/inference. Это не «плагин», а интегрированная часть VCF и экосистемы VMware Private AI Foundation with NVIDIA.

Как это интегрируется в вашм бизнес-процессы

Типовые сценарии, которые теперь проще закрывать «из коробки»:

Models-as-a-Service: реестр -> развертывание -> публикация endpoint-ов -> контроль версий/квот -> многоарендность.
Агенты поверх LLM: ускоренный старт с Agent Builder + подключение к корпоративным данным через индексирование/вектора.
RAG-потоки с политиками и аудитом: источники данных под управлением VCF, контроль доступа на уровне платформы, видимость (observability).
Доставка сервисов K8s: GitOps (Argo CD), сервис-меш (Istio), S3-объекты на vSAN для артефактов/данных.

Лицензирование/доставка и пути обновления

GA: VCF 9.0 доступен с 17 июня 2025.
Службы Private AI Services обещаны как часть подписки VCF 9.0 в Q1 FY26 от Broadcom.
Официальный документ с фичами и путями миграции VCF <-> VVF 9.0 доступен тут.

Вывод

VCF 9.0 — это не просто «еще одна» версия с оптимизациями. За счет включения Private AI Services в базовую платформу и сдвига на «one interface to operate/consume», VCF превращает AI-нагрузки в основу частного облака, сохраняя корпоративные политики, комплаенс и привычные SRE-процессы — от GPU до GitOps.

Таги: VMware, VCF, AI, Private AI, Update

Производительность виртуализованных нагрузок на платформе VMware Cloud Foundation для целей генеративного AI

Генеративный искусственный интеллект (Gen AI) стремительно трансформирует способы создания контента, коммуникации и решения задач в различных отраслях. Инструменты Gen AI расширяют границы возможного для машинного интеллекта. По мере того как организации внедряют модели Gen AI для задач генерации текста, синтеза изображений и анализа данных, на первый план выходят такие факторы, как производительность, масштабируемость и эффективность использования ресурсов. Выбор подходящей инфраструктуры — виртуализированной или «голого железа» (bare metal) — может существенно повлиять на эффективность выполнения AI-нагрузок в масштабах предприятия. Ниже рассматривается сравнение производительности виртуализованных и bare-metal сред для Gen AI-нагрузок.

Broadcom предоставляет возможность использовать виртуализованные графические процессоры NVIDIA на платформе частного облака VMware Cloud Foundation (VCF), упрощая управление AI-accelerated датацентрами и обеспечивая эффективную разработку и выполнение приложений для ресурсоёмких задач AI и машинного обучения. Программное обеспечение VMware от Broadcom поддерживает оборудование от разных производителей, обеспечивая гибкость, возможность выбора и масштабируемость при развертывании.

Broadcom и NVIDIA совместно разработали платформу Gen AI — VMware Private AI Foundation with NVIDIA. Эта платформа позволяет дата-сайентистам и другим специалистам тонко настраивать LLM-модели, внедрять рабочие процессы RAG и выполнять инференс-нагрузки в собственных дата-центрах, решая при этом задачи, связанные с конфиденциальностью, выбором, стоимостью, производительностью и соответствием нормативным требованиям. Построенная на базе ведущей частной облачной платформы VCF, платформа включает компоненты NVIDIA AI Enterprise, NVIDIA NIM (входит в состав NVIDIA AI Enterprise), NVIDIA LLM, а также доступ к открытым моделям сообщества (например, Hugging Face). VMware Cloud Foundation — это полнофункциональное частное облачное решение от VMware, предлагающее безопасную, масштабируемую и комплексную платформу для создания и запуска Gen AI-нагрузок, обеспечивая гибкость и адаптивность бизнеса.

Тестирование AI/ML нагрузок в виртуальной среде

Broadcom в сотрудничестве с NVIDIA, Supermicro и Dell продемонстрировала преимущества виртуализации (например, интеллектуальное распределение и совместное использование AI-инфраструктуры), добившись впечатляющих результатов в бенчмарке MLPerf Inference v5.0. VCF показала производительность близкую к bare metal в различных областях AI — компьютерное зрение, медицинская визуализация и обработка естественного языка — на модели GPT-J с 6 миллиардами параметров. Также были достигнуты отличные результаты с крупной языковой моделью Mixtral-8x7B с 56 миллиардами параметров.

На последнем рисунке в статье показано, что нормализованная производительность в виртуальной среде почти не уступает bare metal — от 95% до 100% при использовании VMware vSphere 8.0 U3 с виртуализованными GPU NVIDIA. Виртуализация снижает совокупную стоимость владения (TCO) AI/ML-инфраструктурой за счёт возможности совместного использования дорогостоящих аппаратных ресурсов между несколькими клиентами практически без потери производительности. См. официальные результаты MLCommons Inference 5.0 для прямого сравнения запросов в секунду или токенов в секунду.

Производительность виртуализации близка к bare metal — от 95% до 100% на VMware vSphere 8.0 U3 с виртуализированными GPU NVIDIA.

Аппаратное и программное обеспечение

В Broadcom запускали рабочие нагрузки MLPerf Inference v5.0 в виртуализованной среде на базе VMware vSphere 8.0 U3 на двух системах:

SuperMicro SuperServer SYS-821GE-TNRT с 8 виртуализированными NVIDIA SXM H100 80GB GPU
Dell PowerEdge XE9680 с 8 виртуализированными NVIDIA SXM H100 80GB GPU

Для виртуальных машин, использованных в тестах, было выделено лишь часть ресурсов bare metal.

В таблицах 1 и 2 показаны аппаратные конфигурации, использованные для запуска LLM-нагрузок как на bare metal, так и в виртуализованной среде. Во всех случаях физический GPU — основной компонент, определяющий производительность этих нагрузок — был одинаков как в виртуализованной, так и в bare-metal конфигурации, с которой проводилось сравнение.

Бенчмарки были оптимизированы с использованием NVIDIA TensorRT-LLM, который включает компилятор глубокого обучения TensorRT, оптимизированные ядра, шаги пред- и постобработки, а также средства коммуникации между несколькими GPU и узлами — всё для достижения максимальной производительности в виртуализованной среде с GPU NVIDIA.

Конфигурация оборудования SuperMicro GPU SuperServer SYS-821GE-TNRT:

Конфигурация оборудования Dell PowerEdge XE9680:

Бенчмарки

Каждый бенчмарк определяется набором данных и целевым показателем качества. В следующей таблице приведено краткое описание бенчмарков в этой версии набора:

В сценарии Offline генератор нагрузки (LoadGen) отправляет все запросы в тестируемую систему в начале запуска. В сценарии Server LoadGen отправляет новые запросы в систему в соответствии с распределением Пуассона. Это показано в таблице ниже:

Сравнение производительности виртуализованных и bare-metal ML/AI-нагрузок

Рассмотренные SuperMicro SuperServer SYS-821GE-TNRT и сервера Dell PowerEdge XE9680 с хостом vSphere / bare metal оснащены 8 виртуализованными графическими процессорами NVIDIA H100.

На рисунке ниже представлены результаты тестовых сценариев, в которых сравнивается конфигурация bare metal с виртуализованной средой vSphere на SuperMicro GPU SuperServer SYS-821GE-TNRT и Dell PowerEdge XE9680, использующими группу из 8 виртуализованных GPU H100, связанных через NVLink. Производительность bare metal принята за базовую величину (1.0), а виртуализованные результаты приведены в относительном процентном соотношении к этой базе.

По сравнению с bare metal, среда vSphere с виртуализованными GPU NVIDIA (vGPU) демонстрирует производительность, близкую к bare metal, — от 95% до 100% в сценариях Offline и Server бенчмарка MLPerf Inference 5.0.

Обратите внимание, что показатели производительности Mixtral-8x7B были получены на Dell PowerEdge XE9686, а все остальные данные — на SuperMicro GPU SuperServer SYS-821GE-TNRT.

Вывод

В виртуализованных конфигурациях используется всего от 28,5% до 67% CPU-ядер и от 50% до 83% доступной физической памяти при сохранении производительности, близкой к bare metal — и это ключевое преимущество виртуализации. Оставшиеся ресурсы CPU и памяти можно использовать для других рабочих нагрузок на тех же системах, что позволяет сократить расходы на инфраструктуру ML/AI и воспользоваться преимуществами виртуализации vSphere при управлении дата-центрами.

Помимо GPU, виртуализация также позволяет объединять и распределять ресурсы CPU, памяти, сети и ввода/вывода, что значительно снижает совокупную стоимость владения (TCO) — в 3–5 раз.

Результаты тестов показали, что vSphere 8.0.3 с виртуализованными GPU NVIDIA находится в «золотой середине» для AI/ML-нагрузок. vSphere также упрощает управление и быструю обработку рабочих нагрузок с использованием NVIDIA vGPU, гибких соединений NVLink между устройствами и технологий виртуализации vSphere — для графики, обучения и инференса.

Виртуализация снижает TCO AI/ML-инфраструктуры, позволяя совместно использовать дорогостоящее оборудование между несколькими пользователями практически без потери производительности.

Таги: VMware, AI, ML, Performance, NVIDIA, Private AI, Hardware

Новый документ: VMware Private AI Foundation with NVIDIA on HGX Servers

Сегодня искусственный интеллект преобразует бизнес во всех отраслях, однако компании сталкиваются с проблемами, связанными со стоимостью, безопасностью данных и масштабируемостью при запуске задач инференса (производительной нагрузки) в публичных облаках. VMware и NVIDIA предлагают альтернативу — платформу VMware Private AI Foundation with NVIDIA, предназначенную для эффективного и безопасного размещения AI-инфраструктуры непосредственно в частном датацентре. В документе "VMware Private AI Foundation with NVIDIA on HGX Servers" подробно рассматривается работа технологии Private AI на серверном оборудовании HGX.

Зачем бизнесу нужна частная инфраструктура AI?

1. Оптимизация использования GPU

На практике графические ускорители (GPU), размещенные в собственных датацентрах, часто используются неэффективно. Они могут простаивать из-за неправильного распределения или чрезмерного резервирования. Платформа VMware Private AI Foundation решает эту проблему, позволяя динамически распределять ресурсы GPU. Это обеспечивает максимальную загрузку графических процессоров и существенное повышение общей эффективности инфраструктуры.

2. Гибкость и удобство для специалистов по AI

Современные сценарии работы с AI требуют высокой скорости и гибкости в работе специалистов по данным. Платформа VMware обеспечивает привычный облачный опыт работы, позволяя командам специалистов быстро разворачивать AI-среды, при этом сохраняя полный контроль инфраструктуры у ИТ-команд.

3. Конфиденциальность и контроль за данными

Публичные облака вызывают беспокойство в вопросах приватности, особенно когда AI-модели обрабатывают конфиденциальные данные. Решение VMware Private AI Foundation гарантирует полную конфиденциальность, соответствие нормативным требованиям и контроль доступа к проприетарным моделям и наборам данных.

4. Знакомый интерфейс управления VMware

Внедрение нового программного обеспечения обычно требует значительных усилий на изучение и адаптацию. Платформа VMware использует уже знакомые инструменты администрирования (vSphere, vCenter, NSX и другие), что существенно сокращает время и затраты на внедрение и эксплуатацию.

Основные компоненты платформы VMware Private AI Foundation с NVIDIA

VMware Cloud Foundation (VCF)

Это интегрированная платформа, объединяющая ключевые продукты VMware:

vSphere для виртуализации серверов.
vSAN для виртуализации хранилищ.
NSX для программного управления сетью.
Aria Suite (бывшая платформа vRealize) для мониторинга и автоматизации управления инфраструктурой.

NVIDIA AI Enterprise

NVIDIA AI Enterprise является важным элементом платформы и включает:

Технологию виртуализации GPU (NVIDIA vGPU C-Series) для совместного использования GPU несколькими виртуальными машинами.
NIM (NVIDIA Infrastructure Manager) для простого управления инфраструктурой GPU.
NeMo Retriever и AI Blueprints для быстрого развёртывания и масштабирования моделей AI и генеративного AI.

NVIDIA HGX Servers

Серверы HGX специально разработаны NVIDIA для интенсивных задач AI и инференса. Каждый сервер оснащён 8 ускорителями NVIDIA H100 или H200, которые взаимосвязаны через высокоскоростные интерфейсы NVSwitch и NVLink, обеспечивающие высокую пропускную способность и минимальные задержки.

Высокоскоростная сеть

Сетевое взаимодействие в кластере обеспечивается Ethernet-коммутаторами NVIDIA Spectrum-X, которые предлагают скорость передачи данных до 100 GbE, обеспечивая необходимую производительность для требовательных к данным задач AI.

Референсная архитектура для задач инференса

Референсная архитектура предлагает точные рекомендации по конфигурации аппаратного и программного обеспечения:

Физическая архитектура

Серверы инференса: от 4 до 16 серверов NVIDIA HGX с GPU H100/H200.
Сетевая инфраструктура: 100 GbE для рабочих нагрузок инференса, 25 GbE для управления и хранения данных.
Управляющие серверы: 4 узла, совместимые с VMware vSAN, для запуска сервисов VMware.

Виртуальная архитектура

Домен управления: vCenter, SDDC Manager, NSX, Aria Suite для управления облачной инфраструктурой.
Домен рабочих нагрузок: виртуальные машины с GPU и Supervisor Clusters для запуска Kubernetes-кластеров и виртуальных машин с глубоким обучением (DLVM).
Векторные базы данных: PostgreSQL с расширением pgVector для поддержки Retrieval-Augmented Generation (RAG) в генеративном AI.

Производительность и валидация

VMware и NVIDIA протестировали платформу с помощью набора тестов GenAI-Perf, сравнив производительность виртуализированных и bare-metal сред. Решение VMware Private AI Foundation продемонстрировало высокую пропускную способность и низкую задержку, соответствующие или превосходящие показатели не виртуализированных решений.

Почему компании выбирают VMware Private AI Foundation с NVIDIA?

Эффективное использование GPU: максимизация загрузки GPU, что экономит ресурсы.
Высокий уровень безопасности и защиты данных: конфиденциальность данных и контроль над AI-моделями.
Операционная эффективность: использование привычных инструментов VMware сокращает затраты на внедрение и управление.
Масштабируемость и перспективность: возможность роста и адаптации к новым задачам в области AI.

Итоговые выводы

Платформа VMware Private AI Foundation с NVIDIA является комплексным решением для компаний, стремящихся эффективно и безопасно реализовывать задачи искусственного интеллекта в частных дата-центрах. Она обеспечивает высокую производительность, гибкость и конфиденциальность данных, являясь оптимальным решением для организаций, которым критично важно сохранять контроль над AI-инфраструктурой, не жертвуя при этом удобством и масштабируемостью.

Таги: VMware, Private AI, NVIDIA, Update, Hardware, AI, LLM, Whitepaper

Новые cценарии применения генеративного AI и фокус на безопасной генерации контента

Генеративный AI продолжает уверенно завоевывать позиции в корпоративной среде. И хотя большинство организаций находятся на этапах экспериментов, происходит постепенный переход к внедрению технологий в полномасштабные производственные среды. По мере роста зрелости рынка и компаний, сбалансированный подход к сильным и слабым сторонам генеративного AI помогает организациям снижать риски, уделяя приоритетное внимание безопасности и конфиденциальности данных, что прокладывает путь к созданию таких кейсов использования, которые одновременно безопасны и трансформируют бизнес.

Эволюция кейсов применения генеративного AI

По мере того как подходы и среды для работы с GenAI становятся более сложными и безопасными, расширяются и направления его применения в компаниях. На ранних этапах организации использовали генеративный AI для таких задач, как визуализация данных и резюмирование информации — это были задачи более низкого порядка, не требующие глубоких знаний в предметной области.

Однако в течение следующих 12 месяцев, по данным опросов, наибольший прирост ценности ожидается в областях, требующих большего учета специфики рабочих процессов и внутреннего контекста компании, таких как генерация кода, улучшение клиентского опыта, продвинутый поиск информации и безопасная генерация контента. Еще одной быстро развивающейся сферой является агентный AI (Agentic AI), который, как ожидается, приведет к улучшению процессов оптимизации и автоматизации задач.

Фокус на безопасной генерации контента

Создание контента — одно из ключевых применений генеративного AI и принципиально новая возможность, открытая благодаря уникальным возможностям генеративных моделей. Эта область стремительно набирает популярность в корпоративной среде благодаря способности повышать продуктивность и автоматизировать типовые задачи по производству контента. В частности, генерация текстов привлекла особое внимание пользователей из-за широкой области применения и остается наиболее востребованной модальностью генеративного AI.

Все чаще бизнес также экспериментирует с другими типами контента, такими как изображения, 3D-рендеры, аудио и видео, часто нацеливаясь на кросс-модальные рабочие процессы. Например, маркетинговые сценарии, где создание изображений продукции сочетается с разработкой текстов рекламных кампаний, или клиентские сервисы, где аудио интегрируется с текстом.

В рамках исследования Voice of the Enterprise: AI & Machine Learning, Use Cases 2025 компании 451 Research (опрошено 1006 компаний) был задан следующий вопрос: "Вашей организацией была приобретена или разработана технология генеративного AI, используемая для создания любого из следующих типов контента?". Вопрос касался исключительно технологий, которые были приобретены или разработаны.

После обработки ответов текущие и планируемые модальности контента GenAI были представлены так:

Одной из распространенных проблем при использовании сотрудниками публичных инструментов генеративного AI или базовых моделей является отсутствие учета специфики организации. Эффективным решением для создания контента, соответствующего корпоративным стилевым требованиям и отражающего идентичность бренда, является тонкая настройка моделей (fine-tuning) в защищенной среде. В сочетании с генерацией, дополненной поиском (retrieval-augmented generation), которая позволяет LLM-моделям использовать и перерабатывать существующие материалы, это помогает компаниям создавать высокорелевантный контент с большей скоростью и частотой, что ведет к росту продуктивности.

Взгляд в будущее

По мере перехода организаций к более сложным и дающим большую ценность сценариям применения GenAI, особое внимание к вопросам конфиденциальности и безопасности становится критически важным для раскрытия трансформационного потенциала технологии. Особенно это актуально для кейсов генерации контента, где зачастую задействуются объекты интеллектуальной собственности и чувствительные данные. Использование публичных AI-сервисов может привести к утечкам данных и краже интеллектуальной собственности, так как вводимые запросы и генерируемые ответы могут сохраняться, анализироваться и становиться доступными третьим лицам. Работа в собственной защищенной среде позволяет компаниям лучше контролировать протоколы безопасности и управление данными, получая максимальную выгоду от генеративного AI без ущерба для стандартов безопасности и защиты информации.

Таги: VMware, Private AI, GenAI, ChatGPT

Документ по информационной безопасности частной AI-инфраструктуры "VMware Private AI Foundation – Privacy and Security Best Practices"

Летом 2024 года Фрэнк Даннеман написал интересный аналитический документ «VMware Private AI Foundation – Privacy and Security Best Practices», который раскрывает основные концепции безопасности для инфраструктуры частного AI (в собственном датацентре и на базе самостоятельно развернутых моделей, которые работают в среде виртуализации).

Как многие из вас знают, мир искусственного интеллекта стремительно развивается, и с этим появляются новые вызовы, особенно в области конфиденциальности и безопасности. Этот документ не ограничивается теорией. Это практическое руководство, в котором представлены базовые концепции, структуры и модели, лежащие в основе безопасности приватного AI. В нем подробно рассматриваются ключевые аспекты конфиденциальности и безопасности в контексте ИИ, а также предоставляются инструменты, которые помогут вам внедрить эти принципы в своей работе. Вы узнаете о принципе совместной ответственности, моделировании угроз для приложений с генеративным AI, а также о триаде CIA — конфиденциальность, целостность и доступность, которая используется как основная модель информационной безопасности.

Основные моменты документа:

Преимущества Private AI в корпоративных датацентрах:
- Контроль и безопасность: организации получают полный контроль над своими данными и моделями, что позволяет минимизировать риски, связанные с конфиденциальностью, и избегать зависимости от сторонних поставщиков.
- Экономическая эффективность: Private AI позволяет управлять расходами на AI, избегая неожиданных затрат от сторонних сервисов и оптимизируя ИТ-бюджет.
- Гибкость и инновации: быстрое тестирование и настройка AI-моделей на внутренних данных без задержек, связанных с внешними сервисами, что способствует повышению производительности и точности моделей.
Принцип совместной ответственности в Private AI:
- Документ подчеркивает важность распределения обязанностей между поставщиком инфраструктуры и организацией для обеспечения безопасности и соответствия требованиям.
Моделирование угроз для Gen-AI приложений:
- Рассматриваются потенциальные угрозы для генеративных AI-приложений и предлагаются стратегии их смягчения, включая анализ угроз и разработку соответствующих мер безопасности.
Модель CIA (Конфиденциальность, Целостность, Доступность):
- Конфиденциальность: обсуждаются методы защиты данных, включая контроль доступа, шифрование и обеспечение конфиденциальности пользователей.
- Целостность: рассматриваются механизмы обеспечения точности и согласованности данных и моделей, а также защита от несанкционированных изменений.
- Доступность: подчеркивается необходимость обеспечения постоянного и надежного доступа к данным и моделям для авторизованных пользователей.
Защита Gen-AI приложений:
- Предлагаются лучшие практики для обеспечения безопасности генеративных AI-приложений, включая разработку безопасной архитектуры, управление доступом и постоянный мониторинг.
Архитектура Retrieval-Augmented Generation (RAG):
- Документ подробно описывает процесс индексирования, подготовки данных и обеспечения безопасности в архитектурах RAG, а также методы эффективного поиска и извлечения релевантной информации для улучшения работы AI-моделей.

В заключение, документ предоставляет всестороннее руководство по созданию и поддержке приватных AI-решений, акцентируя внимание на критически важных аспектах конфиденциальности и безопасности, что позволяет организациям уверенно внедрять AI-технологии в своих инфраструктурах.

И это еще не все. В ближайшем будущем VMware продолжает развивать эти концепции в другом аналитическом документе, посвященном настройкам VMware Cloud Foundation (VCF). Этот документ станет вашим основным ресурсом для получения подробных рекомендаций по конфигурации и оптимизации VCF, чтобы создать надежную и безопасную среду для Private AI.

Таги: VMware, Private AI, Security, Whitepaper

Сценарии использования для различных реализаций VMware Private AI Foundation with NVIDIA

Что означает "реализовать Private AI" для одного или нескольких сценариев использования на платформе VMware Cloud Foundation (VCF)?

VMware недавно представила примеры того, что значит "реализовать Private AI". Эти сценарии использования уже внедрены внутри компании Broadcom в рамках частного применения. Они доказали свою ценность для бизнеса Broadcom, что дает вам больше уверенности в том, что аналогичные сценарии могут быть реализованы и в вашей инсталляции VCF на собственных серверах.

Описанные ниже сценарии были выбраны, чтобы показать, как происходит увеличение эффективности бизнеса за счет:

Повышения эффективности сотрудников, работающих с клиентами с помощью чат-ботов, использующих данные компании.
Помощи разработчикам в создании более качественного кода с помощью ассистентов.

Сценарий использования 1: создание чат-бота, понимающего приватные данные компании

Этот тип приложения является наиболее распространенным стартовым вариантом для тех, кто начинает изучение Generative AI. Основная ценность, отличающая его от чат-ботов в публичных облаках, заключается в использовании приватных данных для ответа на вопросы, касающиеся внутренних вопросов компании. Этот чат-бот предназначен исключительно для внутреннего использования, что снижает возможные риски и служит возможностью для обучения перед созданием приложений, ориентированных на внешнюю аудиторию.

Вот пример пользовательского интерфейса простого стартового чат-бота из NVIDIA AI Enterprise Suite, входящего в состав продукта. Существует множество различных примеров чат-ботов для начинающих в этой области. Вы можете ознакомиться с техническим описанием от NVIDIA для чат-ботов здесь.

Набор шагов для изучения работы этого стартового чат-бота в качестве учебного упражнения приведен в техническом обзоре VMware Private Foundation с NVIDIA.

Современные чат-боты с поддержкой AI проектируются с использованием векторной базы данных, которая содержит приватные данные вашей компании. Эти данные разделяются на блоки, индексируются и загружаются в векторную базу данных офлайн, без связи с основной моделью чат-бота. Когда пользователь задает вопрос в приложении чат-бота, сначала извлекаются все релевантные данные из векторной базы данных. Затем эти данные, вместе с исходным запросом, передаются в большую языковую модель (LLM) для обработки. LLM обрабатывает и суммирует извлеченные данные вместе с исходным запросом, представляя их пользователю в удобном для восприятия виде. Этот подход к проектированию называется Retrieval Augmented Generation (RAG).

RAG стал общепринятым способом структурирования приложений Generative AI, чтобы дополнить знания LLM приватными данными вашей компании, что позволяет предоставлять более точные ответы. Обновление приватных данных теперь сводится к обновлению базы данных, что гораздо проще, чем повторное обучение или настройка модели.

Пример использования чат-бота

Представим ситуацию: клиент разговаривает с сотрудником компании и спрашивает о функции, которую хотел бы видеть в следующей версии программного продукта компании. Сотрудник не знает точного ответа, поэтому обращается к чат-боту и взаимодействует с ним в диалоговом стиле, используя естественный язык. Логика на стороне сервера в приложении чат-бота извлекает релевантные данные из приватного источника, обрабатывает их в LLM и представляет сотруднику в виде сводки. Теперь сотрудник может дать клиенту более точный ответ.

Пример из Broadcom

В Broadcom специалисты по данным разработали производственный чат-бот для внутреннего использования под названием vAQA (или “VMware’s Automated Question Answering Service”). Этот чат-бот обладает мощными функциями для интерактивного чата или поиска данных, собранных как внутри компании, так и извне.

На панели навигации справа есть возможность фильтровать источники данных. Пример простого использования системы демонстрирует её способность отвечать на вопросы на естественном языке. Например, сотрудник спросил чат-бота о блогах с информацией о виртуальных графических процессорах (vGPU) на VMware Cloud Foundation, указав, чтобы он предоставил URL-адреса этих статей. Система ответила списком релевантных URL-адресов и, что важно, указала свои источники.

Здесь имеется гораздо больше функциональности, чем просто поиск и обработка данных, но это выходит за рамки текущего обсуждения.

Данная система чат-бота использует эмбеддинги, хранящиеся в базе данных, для поиска, связанного с вопросами, а также одну или несколько больших языковых моделей (LLM) для обработки результатов. Кроме того, она использует драйверы GPU на уровне общей инфраструктуры для поддержки этого процесса.

Как VMware Private AI Foundation с NVIDIA позволяет создать чат-бота для работы с приватными данными

На диаграмме ниже обобщены различные части архитектуры VMware Private AI Foundation с NVIDIA. Более подробную информацию можно найти в документации VMware Private AI Foundation with NVIDIA – a Technical Overview, а также на сайте документации NVIDIA AI Enterprise.

Для реализации приложения чат-бота можно использовать несколько компонентов из представленной выше архитектуры для проектирования и доставки рабочего приложения (начиная с синего уровня от VMware).

Система управления моделями (Model Governance) используется для тестирования, оценки и хранения предварительно обученных больших языковых моделей, которые считаются безопасными и подходящими для бизнес-использования. Эти модели сохраняются в библиотеке (называемой "галерея моделей", основанной на Harbor). Процесс оценки моделей уникален для каждой компании.
Функционал векторной базы данных применяется через развертывание этой базы данных с помощью дружественного интерфейса с использованием автоматизации VCF. Затем база данных заполняется очищенными и организованными приватными данными компании.
Инструменты "автоматизации самообслуживания", основанные на автоматизации VCF, используются для предоставления наборов виртуальных машин глубокого обучения для тестирования моделей, а затем для создания кластеров Kubernetes для развертывания и масштабирования приложения.
Средства мониторинга GPU в VCF Operations используются для оценки влияния приложения на производительность GPU и системы в целом.

Вы можете получить лучшие практики и технические советы от авторов VMware о развертывании собственного чат-бота, основанного на RAG, прочитав статью VMware RAG Starter Pack вместе с упомянутыми техническими документами.

Сценарий использования 2: ассистента кода для помощи инженерам в процессе разработки

Предоставление ассистента разработки кода для ускорения процессов разработки программного обеспечения является одним из наиболее значимых сценариев для любой организации, занимающейся разработкой ПО. Это включает подсказки по коду, автозаполнение, рефакторинг, обзоры кода и различные интеграции с IDE.

Инженеры и специалисты по данным VMware изучили множество инструментов, управляемых AI, в области ассистентов кода и, после тщательного анализа, остановились на двух сторонних поставщиках: Codeium и Tabnine, которые интегрированы с VMware Private AI Foundation with NVIDIA. Ниже кратко описан первый из них.

Основная идея состоит в том, чтобы помочь разработчику в процессе написания кода, позволяя общаться с AI-"советником" без прерывания рабочего потока. Советник предлагает подсказки по коду прямо в редакторе, которые можно принять простым нажатием клавиши "Tab". По данным компании Codeium, более 44% нового кода, добавляемого клиентами, создается с использованием их инструментов. Для получения дополнительной информации о советнике можно ознакомиться с этой статьей.

Особенности ассистентов кода

Одной из интересных функций ассистентов кода является их способность предугадывать, какие действия вы собираетесь выполнить в программировании, помимо вставки следующего фрагмента кода. Ассистент анализирует контекст до и после текущей позиции курсора и предлагает вставку кода с учетом этого контекста. Кроме того, кодовые ассистенты помогают не только с написанием кода, но и с его обзором, тестированием, документированием и рефакторингом. Они также улучшают командное сотрудничество через функции индексирования нескольких репозиториев, управления рабочими местами и другие технологии.

Как VMware Private AI Foundation с NVIDIA помогает развернуть ассистенты кода

Сторонний ассистент от Codeium разворачивается локально — либо в виртуальной машине с Docker, либо в кластере Kubernetes, созданном, например, с помощью службы vSphere Kubernetes Service (VKS). Код пользователя, независимо от того, написан он вручную или сгенерирован инструментом, не покидает компанию, что защищает интеллектуальную собственность. Целевой кластер Kubernetes создается с помощью инструмента автоматизации VCF и поддерживает работу с GPU благодаря функции VMware Private AI Foundation с NVIDIA — GPU Operator. Этот оператор устанавливает необходимые драйверы vGPU в поды, работающие на кластере Kubernetes, чтобы поддерживать функциональность виртуальных GPU. После этого функциональность Codeium разворачивается в Kubernetes с использованием Helm charts.

Инфраструктура Codeium включает серверы Inference Server, Personalization Server, а также аналитическую базу данных, как показано на рисунке ниже:

Вы можете получить больше информации об использовании Codeium с VMware Private AI Foundation с NVIDIA в этом кратком описании решения.

Ниже приведены простые примеры использования Codeium для генерации функции на Python на основе текстового описания.

Затем в Broadcom попросили ассистента кода написать и включить тестовые сценарии использования для ранее созданной функции.

В первой части этой серии мы рассмотрели два примера использования Private AI на платформе VCF: чат-бот для бэк-офиса, который улучшает взаимодействие с клиентами в контактных центрах, и ассистента кода, помогающего инженерам работать более эффективно.

Естественно, существует множество других сценариев, применимых к конкретным отраслям или горизонтальным задачам, поскольку вся область Private AI продолжает развиваться на рынке. Для получения дополнительной информации ознакомьтесь с документацией: Private AI Ready Infrastructure for VMware Cloud Foundation Validated Solution и VMware Private AI Foundation with NVIDIA Guide.

Для сценариев использования в финансовых услугах см. статью Private AI: Innovation in Financial Services Combined with Security and Compliance.

VCF позволяет предприятиям легко развертывать эти два сценария, используя передовые технологии и быстро выполняя сложные задачи через автоматизацию, при этом обеспечивая безопасность данных на ваших локальных серверах.

Таги: VMware, vSphere, Private AI, AI, LLM, NVIDIA, Enterprise

Интересное видео: RAG Pipelines с VMware Private AI Foundation и NVIDIA - использование AI для повышения эффективности

На второй день конференции VMware Explore в Барселоне обсуждались передовые технологии, включая решения VMware Private AI Foundation и их интеграцию с решениями от NVIDIA. В видео ниже ведущие эксперты делятся опытом применения Retrieval Augmented Generation (RAG) и другими ключевыми возможностями Private AI для повышения эффективности работы корпоративных систем и оптимизации использования AI.

Основные темы видео:

Что такое VMware Private AI?
- VMware Private AI — это платформа, которая позволяет использовать возможности искусственного интеллекта, сохраняя конфиденциальность данных.
- RAG (Retrieval Augmented Generation) — технология, интегрирующая базу данных с частными данными в модели AI, что обеспечивает точные ответы и минимизирует "галлюцинации" модели.
Ключевые сценарии использования Private AI:
- Внутренние чат-боты: помощь сотрудникам, например, операторам колл-центров, в быстром получении ответов с использованием внутренних данных компании.
- Генерация кода: создание инструментов для разработчиков на основе частных данных, таких как внутренний исходный код.
- Работа с внутренними базами знаний: быстрый доступ к информации, хранящейся в документации или системах управления знаниями, таких как Confluence.
RAG: Что это и как работает?
- Использует внутренние базы данных (векторные базы данных) для поиска информации, релевантной запросу.
- Пример: при запросе информация сначала ищется в базе знаний, а затем контекст передается модели AI для создания точного и краткого ответа.
Интеграция с NVIDIA:
- Использование NVIDIA NGC для адаптации моделей под ресурсы, такие как GPU, с возможностью значительного повышения производительности (в 2–8 раз).
- Поддержка различных уровней точности вычислений (FP32, FP16 и другие) для оптимального баланса скорости и качества.
Модельное управление и тестирование:
- Встроенные инструменты для проверки моделей AI на наличие ошибок, галлюцинаций и других проблем до их использования.
- Гибкая интеграция любых моделей, включая те, что загружаются из Hugging Face, NVIDIA или создаются внутри компании.
Преимущества подхода Private AI:
- Сохранение конфиденциальности данных в онпремизных средах.
- Повышение точности работы моделей за счет использования внутренних данных.
- Улучшение взаимодействия сотрудников с клиентами и внутри команды.

Для кого это видео:

Системных администраторов, DevOps-инженеров, специалистов по AI.
Компаний, стремящихся внедрить передовые технологии AI, сохраняя конфиденциальность данных.
Тех, кто хочет углубить знания в области RAG и Private AI.

Посмотрите это видео, чтобы узнать больше о том, как VMware и NVIDIA трансформируют корпоративные системы с помощью искусственного интеллекта.

Таги: VMware, Private AI, Video, NVIDIA, AI, GPT

Анонсы VMware Explore 2024 Europe: расширение экосистемы Private AI за счет решения Microsoft Azure AI Video Indexer

С момента основания VMware ее цель заключалась в том, чтобы обеспечить клиентам и партнёрам широкий выбор типов приложений и сервисов, которые они могут запускать в облачной инфраструктуре. Этот основной принцип также лежит в основе подхода к экосистеме Private AI.

Сегодня среди множества поддерживаемых коммерческих и открытых моделей и сервисов AI, клиенты теперь могут запускать Azure AI Video Indexer, поддерживаемый технологией Azure Arc, на платформе VMware Cloud Foundation на локальных серверах или в облаке Azure VMware Solution.

Клиенты и партнёры VMware просили более тесно сотрудничать с Microsoft для интеграции сервисов Azure в инфраструктуру VMware на локальных серверах. Включение Azure Video Indexer on Arc в VMware Cloud Foundation является важным первым шагом в этом направлении.

Возможности VMware Private AI и Azure Video Indexer

VMware Private AI представляет собой архитектурный подход, позволяющий предприятиям использовать потенциал генеративного AI, сохраняя при этом конфиденциальность данных, контроль и соответствие нормативным требованиям. Этот подход позволяет организациям запускать сервисы AI там, где они работают.

Azure Video Indexer — это сервис видеоаналитики в облаке и на периферии, использующий AI для извлечения полезных данных из аудио- и видеофайлов. При развертывании в виде расширения Arc на Kubernetes-кластерах он предоставляет мощные возможности видеоанализа для локальных сред.

Зачем интегрировать VMware Private AI с Azure Video Indexer on Arc?

Интеграция этих двух технологий даёт несколько важных преимуществ:

Конфиденциальность данных и контроль: обработка чувствительного видеоконтента на локальных серверах при сохранении полного контроля над данными.
Экономичность: использование существующей инфраструктуры VMware для AI-нагрузок, что потенциально снижает затраты на облако.
Улучшенное обнаружение контента: возможность поиска с автоматическим извлечением метаданных из видеоконтента.
Интеллектуальная оптимизация инфраструктуры: динамическое объединение и распределение ресурсов AI, включая вычислительные мощности, сеть и данные.
Соответствие требованиям: соблюдение регуляторных требований с размещением данных и средств их обработки в контролируемой среде.
Упрощённое управление: управление как инфраструктурой, так и AI-нагрузками через привычные инструменты VMware.

Примеры использования

Существует ряд примеров, в которых можно получить дополнительную ценность, запуская этот сервис на периферийных сайтах или внутри собственных центров обработки данных, включая такие возможности, как:

Локализация: быстро добавляйте локализацию в видеоконтент и обучающие материалы для внутренних пользователей или клиентов из разных географических регионов.
Предварительная фильтрация и локальные предсказания: снижайте нагрузку на WAN-сети, локализуя обработку AI/ML, что особенно ценно для приложений сегмента computer vision.
Медиа и развлечения: анализируйте и размечайте большие видеотеки, улучшая возможность обнаружения контента и повышая вовлечённость пользователей. Локальное развертывание обеспечивает защиту авторских прав и конфиденциальных данных.
Корпоративное обучение: крупные предприятия могут использовать эту интеграцию для автоматической индексации и анализа обучающих видеоматериалов, делая их более доступными и удобными для поиска сотрудниками, сохраняя при этом конфиденциальную информацию внутри инфраструктуры компании.

Интеграция VMware Private AI с Azure Video Indexer on Arc, работающего на кластерах Tanzu Kubernetes внутри VCF, представляет собой отличное решение для организаций, стремящихся использовать AI для анализа видео, сохраняя контроль над данными и инфраструктурой. Эта комбинация предлагает улучшенную конфиденциальность, масштабируемость и производительность, открывая новые возможности для AI-инсайтов в различных отраслях.

Таги: VMware, Private AI, GPT, Microsoft, Azure

Анонсы VMware Explore 2024: новый сервис Summarize-and-Chat на платформе VMware Private AI

Продолжаем рассказывать о главных анонсах продуктов и технологий в рамках прошедшей недавно конференции VMware Explore 2024 (кстати, не забудьте о бесплатном видеокаталоге сессий конференции).

Текстовая генерация и суммаризация с использованием GenAI становятся мейнстримом благодаря своей способности быстро создавать точные и связные резюме нужной информации. Хотя есть общедоступные инструменты для суммаризации, компании могут предпочесть внутренние решения по причинам конфиденциальности данных, безопасности и соблюдения регулятивных норм. Поэтому возникает потребность в локальных продуктах, которые могут адаптироваться к требованиям организации и ее правилам управления данными.

Команды часто сталкиваются с серьезными препятствиями при создании собственных решений на основе машинного обучения. Какую технику суммаризации следует использовать для больших документов, которые превышают размер контекстного окна моделей LLM? Какие библиотеки лучше всего подходят для парсинга больших документов, таких как PDF, с их сложными структурами (например, таблицы, графики и изображения)? Какая LLM подходит для суммаризации длинных расшифровок встреч, где есть множество смен диалогов, что затрудняет понимание ценной контекстной информации? Какие эффективные подсказки (prompts) следует использовать для выбранных моделей?

Сервис Summarize-and-Chat

Summarize-and-Chat — это проект с открытым исходным кодом для VMware Private AI, который решает вышеуказанные задачи и помогает командам начать работу с их кейсами. Этот проект может быть развернут на VMware Private AI Foundation с NVIDIA, чтобы клиенты могли начать использовать GenAI на своих приватных данных. Данная возможность предоставляет универсальный и масштабируемый подход для типичных задач суммаризации, обеспечивая взаимодействие на естественном языке через чат-интерфейсы. Интеграция суммаризации документов и общения через чат в единой системе имеет несколько преимуществ. Во-первых, это позволяет пользователям получать краткие резюме различного контента, включая статьи, отзывы клиентов, баги/проблемы или пропущенные встречи.

Во-вторых, благодаря использованию LLM для чатов, данная возможность обеспечивает более вовлекающие и контекстно-осведомленные разговоры, повышая удовлетворенность пользователей.

Ключевые особенности

Summarize-and-Chat предоставляет следующие возможности:

Поддержка различных типов и форматов документов (PDF, DOCX, PPTX, TXT, VTT и популярных аудиофайлов - mp3, mp4, mpeg, mpga, m4a, wav и webm).
Поддержка открытых LLM на движке вывода, совместимого с OpenAI.
Интуитивно понятный пользовательский интерфейс для загрузки файлов, генерации резюме и чатов.
Суммаризация:
- Вставляйте, копируйте или загружайте файлы и просматривайте их.
- Выбирайте способ суммаризации (пользовательские подсказки, размер фрагмента, диапазон страниц для документов или временной диапазон для аудио).
- Регулируйте длину резюмирующего вывода.
- Получайте резюме за считанные секунды и загружайте его.
Чат с вашим документом:
- Автоматически сгенерированные вопросы по документу.
- Получайте ответ с указанием источника за считанные секунды.
Анализ инсайтов:
- Выбирайте два или более документа.
- Пишите запрос для сравнения или определения инсайтов из выбранных документов.
Преобразование речи в текст.
Поддержка различных PDF-парсеров: PyPDF, PDFMiner, PyMUPDF.
API.

Шаги развертывания

Настройка Summarize-and-Chat проста и включает несколько конфигурационных шагов для каждого компонента.

Summarize-and-Chat включает три компонента:

1. Summarization-client: веб-приложение на Angular/Clarity.
2. Summarization-server: сервер-шлюз на FastAPI для управления основными функциями приложения, включая:

Контроль доступа.
Пайплайн обработки документов: обработка документов, извлечение метаданных для заполнения векторного индекса (текстовые эмбеддинги).
Суммаризация с использованием LangChain Map Reduce. Этот подход позволяет суммаризовать большие документы, которые превышают лимит токенов на входе модели.
Улучшенное извлечение с помощью Retrieval Augmented Generation (RAG), используя возможности ранжирования LlamaIndex и pgvector для повышения производительности в системах вопрос-ответ.

3. Speed-to-text (STT): преобразование аудио в текст с использованием OpenAI's faster-whisper.

Следуйте инструкциям по быстрой установке и настройке в файле README, и вы сможете начать работу через несколько минут.

Использование Summarize-and-Chat

Теперь давайте посмотрим, как можно использовать Summarize-and-Chat для суммаризации длинного PDF-документа и полноценного взаимодействия с ним.

Для начала войдите в клиент суммаризации, используя ваши учетные данные Okta.

1. Загрузите файл и добавьте метаданные (дату, версию).
2. Выберите опцию QUICK для краткого резюме или DETAILED для детальной суммаризации.
3. Нажмите кнопку SUMMARIZE, и резюме будет сгенерировано мгновенно. Для длинного документа вы увидите оценку времени и получите уведомление, когда резюме будет готово к загрузке.

Чат с вашим документом

Вы можете нажать на иконку "чат" в верхнем меню, чтобы начать общение с вашим документом. Вы можете выбрать один из автоматически сгенерированных вопросов или ввести свой собственный вопрос и получить ответ с указанием источника за несколько секунд.

Что дальше

Broadcom представила Summarize-and-Chat с открытым исходным кодом, чтобы поддержать проекты по работе с данными и машинному обучению на платформе VMware Private AI.

Если вы хотите принять участие в проекте, пожалуйста, ознакомьтесь с этим руководством.

Таги: VMware, AI, Private AI, ChatGPT, GPT

Создание приложений промышленного уровня на базе AI на платформе VMware Private AI Foundation с использованием микросервисов NVIDIA NIM

В рамках анонсов конференции Explore 2024, касающихся VMware Private AI Foundation с NVIDIA (PAIF-N), в компании VMware решили обновить Improved RAG Starter Pack v2.0, чтобы помочь клиентам воспользоваться новейшими микросервисами для инференса NVIDIA (модули NIM), которые обеспечивают атрибуты промышленного уровня (надёжность, масштабируемость и безопасность) для языковых моделей, используемых в системах Retrieval Augmented Generation (RAG).

Следуя духу оригинального Improved RAG Starter Pack (v1.0), Broadcom предлагает серию Jupyter-блокнотов, реализующих улучшенные методы поиска. Эти методы обогащают большие языковые модели (LLMs) актуальными и достоверными контекстами, помогая им генерировать более точные и надёжные ответы на вопросы, связанные с специализированными знаниями, которые могут не быть частью их предобученного датасета. Благодаря этому можно эффективно снизить "галлюцинации" LLM и повысить надёжность приложений, управляемых AI.

Новые функции обновлённого Improved RAG Starter Pack:

Используются NVIDIA NIMs для LLM, текстовых встраиваний и ранжирования текстов — трёх основных языковых моделей, которые питают RAG-пайплайны.
Обновили LlamaIndex до версии v0.11.1.
Используются Meta-Llama3-8b-Instruct в качестве генератора LLM, который управляет RAG-пайплайном.
Заменили OpenAI GPT-4 на Meta-Llama-3-70b-Instruct как движок для DeepEval для выполнения двух ключевых задач, связанных с оценкой RAG-пайплайнов:
- Для синтеза наборов данных для оценки систем RAG.
- Для оценки ("судейства") RAG-пайплайнов путём оценки ответов пайплайна на запросы, извлечённые из набора для оценки. Каждый ответ оценивается по нескольким метрикам DeepEval.

Анатомия улучшенного RAG Starter Pack

Каталог репозитория GitHub, содержащий этот стартовый пакет, предоставляет пошаговое руководство по внедрению различных элементов стандартных систем RAG.

Помимо NVIDIA NIM, системы RAG используют такие популярные технологии, как LlamaIndex (фреймворк для разработки приложений на основе LLM), vLLM (сервис для инференса LLM) и PostgreSQL с PGVector (масштабируемая и надёжная векторная база данных, которую можно развернуть с помощью VMware Data Services Manager).

Все начинается с реализации стандартного RAG-пайплайна. Далее используется база знаний RAG для синтеза оценочного набора данных для оценки системы RAG. Затем улучшается стандартная система RAG за счет добавления более сложных методов поиска, которые будут подробно описаны далее. Наконец, различные подходы RAG оцениваются с помощью DeepEval и сравниваются для выявления их плюсов и минусов.

Структура каталога организована следующим образом.

Теперь давайте обсудим содержание каждой секции.

Настройка сервисов NIM и vLLM (00)

Эта секция содержит инструкции и скрипты для Linux shell, которые необходимы для развертывания сервисов NVIDIA NIM и vLLM, требуемых для реализации RAG-пайплайнов и их оценки.

Инициализация PGVector (01)

Эта секция предлагает несколько альтернатив для развертывания PostgreSQL с PGVector. PGVector — это векторное хранилище, которое будет использоваться LlamaIndex для хранения базы знаний (текстов, встраиваний и метаданных), что позволит расширить знания LLM и обеспечить более точные ответы на запросы пользователей.

Загрузка документов базы знаний (02)

Каждый демо-пример RAG и введение в RAG используют базу знаний для расширения возможностей генерации LLM при вопросах, касающихся областей знаний, которые могут не входить в предобученные данные моделей. Для этого стартового пакета VMware выбрала десять документов из коллекции электронных книг по истории от NASA, предлагая таким образом вариант типичных документов, часто используемых в туториалах по RAG.

Загрузка документов в систему (03)

Эта секция содержит начальный Jupyter-блокнот, где используется LlamaIndex для обработки электронных книг (формат PDF), их разбиения на части (узлы LlamaIndex), кодирования каждого узла в виде длинного вектора (встраивания) и хранения этих векторов в PostgreSQL с PGVector, который действует как наш векторный индекс и движок запросов. На следующем изображении показан процесс загрузки документов в систему.

После того как PGVector загрузит узлы, содержащие метаданные, текстовые фрагменты и их соответствующие встраивания, он сможет предоставить базу знаний для LLM, которая будет генерировать ответы на основе этой базы знаний (в нашем случае это книги по истории от NASA).

Генерация оценочного набора данных (04)

Jupyter-блокнот в этой папке демонстрирует использование Synthesizer из DeepEval для создания набора данных вопросов и ответов, который впоследствии будет использоваться метриками DeepEval для оценки качества RAG-пайплайнов. Это позволит определить, как изменения ключевых компонентов пайплайна RAG, таких как LLM, модели встраиваний, модели повторного ранжирования, векторные хранилища и алгоритмы поиска, влияют на качество генерации. Для синтетической генерации оценочного набора данных используется модель Meta-Llama-3-70b-Instruct.

Реализация вариантов RAG (05)

В этом каталоге содержатся три подкаталога, каждый из которых включает Jupyter-блокнот, исследующий один из следующих вариантов реализации RAG-пайплайна на основе LlamaIndex и открытых LLM, обслуживаемых через vLLM:

Стандартный RAG-пайплайн + повторное ранжирование: этот блокнот реализует стандартный RAG-пайплайн с использованием LlamaIndex, включая финальный этап повторного ранжирования, который управляется моделью ранжирования. В отличие от модели встраиваний, повторное ранжирование использует вопросы и документы в качестве входных данных и напрямую выдаёт степень схожести, а не встраивание. Вы можете получить оценку релевантности, вводя запрос и отрывок в модель повторного ранжирования. VMware использует следующие микросервисы NVIDIA (NIM) для работы RAG-системы:
- Генератор LLM для RAG: Meta-Llama-3-8b-Instruct
- Модель встраиваний для RAG: nvidia/nv-embedqa-e5-v5
- Модель повторного ранжирования для RAG: nvidia/nv-rerankqa-mistral-4b-v3

Следующая картинка иллюстрирует, как работает эта RAG-система.

Извлечение с использованием окон предложений:

Метод извлечения с использованием окон фраз (Sentence Window Retrieval, SWR) улучшает точность и релевантность извлечения информации в RAG-пайплайнах, фокусируясь на определённом окне фраз вокруг целевой фразы. Такой подход повышает точность за счёт фильтрации нерелевантной информации и повышает эффективность, сокращая объём текста, обрабатываемого во время поиска.

Разработчики могут регулировать размер этого окна, чтобы адаптировать поиск к своим конкретным задачам. Однако у метода есть потенциальные недостатки: узкая фокусировка может привести к упущению важной информации в соседнем тексте, что делает выбор подходящего размера окна контекста критически важным для оптимизации как точности, так и полноты процесса поиска. Jupyter-блокнот в этой директории использует реализацию SWR от LlamaIndex через модуль Sentence Window Node Parsing, который разбивает документ на узлы, каждый из которых представляет собой фразу. Каждый узел содержит окно из соседних фраз в метаданных узлов. Этот список узлов повторно ранжируется перед передачей LLM для генерации ответа на запрос на основе данных из узлов.

Автоматическое слияние при извлечении:

Метод автоматического слияния при извлечении — это подход RAG, разработанный для решения проблемы фрагментации контекста в языковых моделях, особенно когда традиционные процессы поиска создают разрозненные фрагменты текста. Этот метод вводит иерархическую структуру, где меньшие текстовые фрагменты связаны с более крупными родительскими блоками. В процессе извлечения, если определённый порог меньших фрагментов из одного родительского блока достигнут, они автоматически сливаются. Такой подход гарантирует, что система собирает более крупные, связные родительские блоки, вместо извлечения разрозненных фрагментов. Ноутбук в этой директории использует AutoMergingRetriever от LlamaIndex для реализации этого варианта RAG.

Оценка RAG-пайплайна (06)

Эта папка содержит Jupyter-блокнот, который использует DeepEval для оценки ранее реализованных RAG-пайплайнов. Для этой цели DeepEval использует оценочный набор данных, сгенерированный на предыдущем шаге. Вот краткое описание метрик DeepEval, используемых для сравнения различных реализаций RAG-пайплайнов. Обратите внимание, что алгоритмы метрик DeepEval могут объяснить, почему LLM присвоил каждую оценку. В нашем случае эта функция включена, и вы сможете увидеть её работу.

Contextual Precision оценивает ретривер вашего RAG-пайплайна, проверяя, расположены ли узлы в вашем контексте поиска, которые релевантны данному запросу, выше, чем нерелевантные узлы.
Faithfulness оценивает качество генератора вашего RAG-пайплайна, проверяя, соответствует ли фактический вывод содержимому вашего контекста поиска.
Contextual Recall оценивает качество ретривера вашего RAG-пайплайна, проверяя, насколько контекст поиска соответствует ожидаемому результату.
Answer Relevancy измеряет, насколько релевантен фактический вывод вашего RAG-пайплайна по отношению к данному запросу.
Hallucination — эта метрика определяет, генерирует ли ваш LLM фактически корректную информацию, сравнивая фактический вывод с предоставленным контекстом. Это фундаментальная метрика, так как одной из главных целей RAG-пайплайнов является помощь LLM в генерации точных, актуальных и фактических ответов на запросы пользователей.

Оценки DeepEval были выполнены с использованием следующей конфигурации:

LLM-оценщик, оценивающий метрики DeepEval: Meta-Llama-3-70b-Instruct, работающая на vLLM в режиме guided-JSON.

Следующая таблица показывает результаты оценки из одного из экспериментов VMware, который включал более 40 пар вопросов и ответов.

Следующая диаграмма представляет другой ракурс взгляда на предыдущий результат:

Как показывает таблица, конкретная реализация RAG может показывать лучшие результаты по определённым метрикам, что указывает на их применимость к различным сценариям использования. Кроме того, метрики оценки помогают определить, какие компоненты ваших RAG-пайплайнов нуждаются в корректировке для повышения общей производительности системы.

Заключение

Обновлённый RAG Starter Pack предоставляет ценный инструментарий для тех, кто внедряет системы RAG, включая серию хорошо документированных Python-блокнотов, предназначенных для улучшения LLM за счёт углубления контекстного понимания. В этот пакет включены передовые методы поиска и такие инструменты, как DeepEval, для оценки системы, которые помогают снизить такие проблемы, как "галлюцинации" LLM, и повысить надёжность ответов AI. Репозиторий на GitHub хорошо структурирован и предлагает пользователям понятное пошаговое руководство, которому легко следовать, даже если вы не являетесь специалистом в области данных. Клиенты и партнёры Broadcom, использующие PAIF-N, найдут этот пакет полезным для запуска приложений на базе генеративного AI в инфраструктурах VMware Cloud Foundation. Ожидайте новых статей, в которых VMware рассмотрит ключевые аспекты безопасности и защиты в производственных RAG-пайплайнах.

Таги: VMware, Private AI, NVIDIA, Enterprise, GPT

Валидированное решение VMware Private AI Ready Validated Solution для VMware Cloud Foundation

На днях мы писали об обновлениях проверенных решений VMware Validated Solutions, которые произошли в мае этого года. Сегодня мы остановимся подробнее на одном из них - VMware Private AI Ready Validated Solution.

Private AI Ready Infrastructure – это уже готовое модульное решение, которое предлагает руководство по проектированию, внедрению и эксплуатации для развертывания AI-нагрузок на стеке VMware Cloud Foundation. Используя GPU-ускоренные VCF Workload Domains, vSphere with Tanzu, NSX и vSAN, это решение обеспечивает прочную основу для современных инициатив в области AI.

Разбор сложностей инфраструктуры, связанных с GPU, и оптимизация AI-нагрузок может быть трудной задачей для администраторов без специальной экспертизы. Трудности, связанные с конфигурацией и управлением средами с GPU, значительны и часто требуют глубоких знаний характеристик оборудования, совместимости драйверов и оптимизации производительности. Однако с решением Private AI Ready Infrastructure VMware Validated Solution, организации могут обойти эти проблемы и уверенно развертывать свои AI нагрузки с проверенными валидированными конфигурациями и лучшими практиками.

Инфраструктура Private AI Foundation with NVIDIA также включена в состав решения VMware Validated Solution, предлагая клиентам возможность поднять свою AI инфраструктуру на новый уровень совместно с решением от NVIDIA.

Что входит в состав решения?

Детальный документ по проектированию архитектуры, охватывающий высокоскоростные сети, вычислительные мощности, хранилища и Accelerators для AI, а также компоненты VMware Private AI Foundation с NVIDIA.
Руководство по сайзингу
Руководство по внедрению
Руководство по эксплуатации и управлению жизненным циклом, включая проверку работоспособности с помощью VMware Starter Pack на основе vLLM RAG
Руководство по совместимости

Начало работы

Ели вы готовы раскрыть весь потенциал вашей Private AI инфраструктуры, получите доступ к этому решению VMware Validated Solution по этой ссылке.

Таги: VMware, Private AI, Enterprise, LLM, ChatGPT, NVIDIA

Решение VMware Private AI Foundation with NVIDIA доступно в рамках General Availability

В марте этого года мы писали о первоначальной доступности (Initial Availability) решения VMware Private AI Foundation with NVIDIA.

Построенный и запущенный на ведущей в отрасли платформе для частного облака, VMware Cloud Foundation, VMware Private AI Foundation with NVIDIA включает в себя новые микросервисы NVIDIA NIM, модели искусственного интеллекта от NVIDIA и других участников сообщества (таких как Hugging Face), а также инструменты и фреймворки искусственного интеллекта от NVIDIA, доступные с лицензиями NVIDIA AI Enterprise.

На днях компании Broadcom (VMware) и NVIDIA объявили о том, что платформа VMware Private AI Foundation with NVIDIA вступила в фазу полной доступности - General Availability.

VMware Private AI Foundation с NVIDIA — это дополнительный SKU на базе VMware Cloud Foundation. Лицензии программного обеспечения NVIDIA AI Enterprise необходимо приобретать отдельно. Это решение использует NVIDIA NIM — часть NVIDIA AI Enterprise, набор простых в использовании микросервисов, предназначенных для ускорения развертывания генеративных моделей AI в облаке, центрах обработки данных и на рабочих станциях.

С момента GA-релиза VMware Private AI Foundation с NVIDIA были также добавлены дополнительные возможности к этой платформе.

1. Мониторинг GPU

Панели мониторинга — это новые представления для GPU, которые позволяют администраторам легко отслеживать метрики GPU по кластерам. Эта панель предоставляет данные в реальном времени о температуре GPU, использовании памяти и вычислительных мощностях, что позволяет администраторам улучшить время решения проблем с инфраструктурой и операционную эффективность.

Мониторинг температуры — с мониторингом температуры GPU администраторы теперь могут максимизировать производительность GPU, получая ранние предупреждения о перегреве. Это позволяет предпринимать проактивные меры для предотвращения снижения производительности и обеспечения оптимальной работы GPU.

2. Скрипты PowerCLI

Была представлена коллекция из четырёх мощных настраиваемых скриптов PowerCLI, предназначенных для повышения эффективности развёртывания и минимизации ручных усилий для администраторов. Эти скрипты служат ценными инструментами для автоматизации развёртывания необходимой инфраструктуры при внедрении рабочих нагрузок AI в среде VCF. Давайте рассмотрим детали.

Развертывание домена рабочих нагрузок VCF - этот скрипт размещает хосты ESXi в SDDC Manager и разворачивает домен рабочих нагрузок VCF. Этот домен служит основой для настройки VMware Private AI Foundation с NVIDIA для развёртывания рабочих нагрузок AI/ML.
Конфигурация хостов ESXi - используя возможности VMware vSphere Lifecycle Manager, этот скрипт упрощает конфигурацию хостов ESXi, плавно устанавливая компоненты программного обеспечения NVIDIA, входящие в состав NVIDIA AI Enterprise, такие как драйвер NVIDIA vGPU и сервис управления GPU NVIDIA.
Развертывание кластера NSX Edge - этот скрипт облегчает развертывание кластера NSX Edge в домене рабочих нагрузок VCF, обеспечивая внешнюю сетевую связность для рабочих нагрузок AI/ML.
Конфигурация кластера Supervisor и библиотеки содержимого образов ВМ глубокого обучения - этот сценарий настраивает кластер Supervisor в домене рабочих нагрузок VCF. Также он создаёт новую библиотеку содержимого образов VM для глубокого обучения, позволяя пользователям легко развертывать рабочие нагрузки ИИ/ML с предварительно настроенными средами выполнения.

Больше технических деталей о возможностях этого релизы вы можете узнать здесь и здесь.

Таги: VMware, Private AI, NVIDIA, Enterprise, AI, Update

Службы Automation Services для VMware Private AI

В современном быстро развивающемся цифровом ландшафте организациям необходимо при релизовывать инициативы по модернизации инфраструктуры, чтобы оставаться актуальными. Новая волна приложений с поддержкой искусственного интеллекта обещает значительно увеличить производительность работников и ускорить экономическое развитие на глобальном уровне, подобно тому как революция мобильных приложений трансформировала бизнес и технологии на протяжении многих лет. Цель компаний Broadcom и VMware состоит в том, чтобы сделать эту мощную и новую технологию более доступной, надежной и доступной по цене. Однако управление разнообразными технологиями, преодоление человеческого сопротивления изменениям и обеспечение прибыльности могут стать сложными препятствиями для любой комплексной ИТ-стратегии.

В связи с объявлением о начальной доступности VMware Private AI Foundation с NVIDIA, в компании Broadcom рады объявить о новой возможности Private AI Automation Services, работающей на базе решения VMware Aria Automation. С помощью служб Private AI Automation Services, встроенных в VMware Cloud Foundation, клиенты могут автоматизировать настройку и предоставление частных AI-услуг и аллокацию машин с поддержкой GPU для ML-нагрузок.

Существует растущая потребность предприятий в решениях для AI, но их реализация может быть сложной и затратной по времени. Чтобы удовлетворить эту потребность, новая интеграция "из коробки" VMware Private AI Foundation с NVIDIA позволит организациям предоставлять возможности автоматизации на базе платформы VMware Cloud Foundation. Интеграция будет сопровождаться новым мастером настройки каталога, который обеспечит быстрый старт, автоматическую настройку частных AI-услуг и самостоятельное предоставление машин с поддержкой GPU, включая ML-нагрузки и TKG GPU на базе кластеров Kubernetes.

Платформа VMware Cloud Foundation (VCF) представляет собой комплексное решение для частной облачной инфраструктуры, которое обеспечивает всеобъемлющую, безопасную и масштабируемую платформу для создания и эксплуатации генеративных AI-нагрузок. Оно предоставляет организациям гибкость, адаптивность и масштабируемость для удовлетворения их меняющихся бизнес-потребностей. С помощью VMware Cloud Foundation ИТ-администраторы могут управлять дорогостоящими и востребованными ресурсами, такими как GPU, с помощью политик использования, шаблонов и ролей пользователей.

Это позволяет членам команд более эффективно использовать инфраструктурные услуги для своих AI/ML-проектов, в то время как ИТ-администраторы обеспечивают оптимальное и безопасное использование ресурсов. Время развертывания AI-инфраструктуры будет сокращено за счет использования Supervisor VM и сервисов TKG в рамках пространства имен супервизора и предоставления через интерфейс потребления облака.

Этот интерфейс теперь доступен локально для клиентов VMware Cloud Foundation через Aria Automation, позволяя им использовать преимущества VMware Private AI Foundation with NVIDIA. Кроме того, Cloud Consumption Interface предлагает простое и безопасное самостоятельное потребление всех Kubernetes-ориентированных desired state IaaS API, доступных на платформе vSphere. Это позволяет предприятиям легко внедрять опыт DevOps и разрабатывать приложения с большей гибкостью, адаптивностью и современными методами в среде vSphere, сохраняя контроль над своей инфраструктурой.

VMware Cloud Foundation помогает клиентам интегрировать гибкость и контроль, необходимые для поддержки нового поколения приложений с AI, что значительно увеличивает производительность работников, способствует трансформации основных бизнес-функций и оказывает положительное экономическое воздействие.

Частные AI-среды VMware служат отличной основой для нового класса приложений на основе AI, что облегчает использование приватных, но широко распределенных данных. Кроме того, возможности Automation Services обеспечивают более быстрый выход на рынок за счет ускоренной итерации изменений AI/ML-инфраструктуры, управляемой через шаблоны. Они также удобны в использовании за счет сокращения времени доступа к средам разработки с поддержкой GPU через каталоги самообслуживания. Кроме того, они дают разработчикам и командам DevOps подход, соответствующий Kubernetes (desired state), для управления изменениями Day-2. Наконец, они помогут снизить затраты на дорогостоящие ресурсы GPU за счет улучшенного управления и использования мощностей AI/ML-инфраструктуры с встроенными политиками и управлением через опции самообслуживания.

Подход Private AI становится популярным, потому что он удовлетворяет возникающие потребности бизнеса в использовании AI, соблюдая строгие стандарты управления данными и конфиденциальности. Открытые модели GenAI могут представлять потенциальные риски, такие как проблемы конфиденциальности, что заставляет организации быть все более осторожными. Частный AI предлагает убедительную альтернативу, позволяя предприятиям запускать модели AI рядом с источником данных, повышая безопасность и соответствие требованиям. VMware Private AI прокладывает путь к новой парадигме, где трансформационный потенциал AI реализуется без ущерба для конфиденциальности данных клиентов и собственных корпоративных данных. Это экономически выгодное решение станет более важным в 2024 году, поскольку организации сталкиваются с растущими регуляторными препятствиями.

Ожидается, что Automation Services для VMware Private AI станут доступны во втором фискальном квартале Broadcom.

Вот несколько дополнительных ссылок:

Документ Enabling an AI-ready Infrastructure with VMware
Руководство Aria Automation для чайников
Узнайте о функциях VMware Aria Automation на TechZone
Отчет Forrester Wave: Автоматизация инфраструктуры, 1 квартал 2023 года
Отчет IDC об инфраструктуре как коде (Infrastructure as Code)

Таги: VMware, AI, Private AI, GenAI, ChatGPT, NVIDIA

Вышло обновление VMware Cloud Foundation 5.1.1 - что нового?

Команда VMware Cloud объявила о публичной доступности платформы VMware Cloud Foundation 5.1.1, поддерживающей первоначальный доступ (initial availability, IA) к инфраструктуре VMware Private AI Foundation with NVIDIA в дополнение к новой модели лицензирования решений VCF, что является первым этапом многоэтапной программы по предоставлению полного стека VCF как единого продукта. Ниже представлен обзор этих важных новых возможностей VCF 5.1.1, а также дополнительные ресурсы и ссылки.

Спецификация версий компонентов VMware Cloud Foundation 5.1.1:

VMware Private AI Foundation with NVIDIA

Как было объявлено на конференции GTC AI Conference 2024, Broadcom предоставила первоначальный доступ (initial availability) к VMware Private AI Foundation with NVIDIA в качестве продвинутого аддона к VMware Cloud Foundation. VMware Private AI Foundation открывает новую эру решений инфраструктуры, поддерживаемых VMware Cloud Foundation для широкого спектра случаев использования генеративного AI. Читайте больше о решениях VMware Cloud Foundation для AI и машинного обучения здесь.

VMware Cloud Foundation является основной инфраструктурной платформой для VMware Private AI Foundation with NVIDIA, предоставляющей современное частное облако, которое позволяет организациям динамически масштабировать рабочие нагрузки GenAI по требованию. VMware Cloud Foundation предлагает автоматизированный процесс самообслуживания в облаке, который ускоряет продуктивность для разработчиков, аналитиков и ученых, обеспечивая при этом комплексную безопасность и устойчивость для защиты и восстановления самой чувствительной интеллектуальной собственности организации.

VMware Cloud Foundation решает многие проблемы, возникающие при развертывании инфраструктуры для поддержки рабочих нагрузок GenAI, за счет архитектуры платформы с полным программно-определяемым стеком, объединяя лучшие в своем классе ресурсы GPU, тесно интегрированные с вычислениями, хранением данных, сетями, безопасностью и управлением.

В VMware Cloud Foundation 5.1.1 существуют хорошо задокументированные рабочие процессы в SDDC Manager для настройки и конфигурации домена рабочих нагрузок Private AI. Также имеется мастер настройки каталога автоматизации VCF, который упрощает конфигурацию этих систем. Зв счет интеграции последних релизов Aria с VMware Cloud Foundation 5.1.1, появляются новые возможности управления, которые можно использовать в решениях Aria Operations и Aria Automation.

Aria Operations включает новые свойства и метрики мониторинга GPU, предоставляющие метрики на уровне кластера и хоста для управления здоровьем и использованием ресурсов GPU. Aria Automation предоставляет новые сервисы автоматизации для VMware Private AI, предлагая модель развертывания частного облака самообслуживания, которая позволяет разработчикам и аналитикам настраивать и перестраивать блоки инфраструктуры для поддержки широкого спектра вариантов использования. Эта новая возможность повышает не только производительность, но и эффективность этих решений на основе GPU, снижая общую стоимость владения (TCO). Гибкость, предлагаемая этой архитектурой, позволяет администраторам облака использовать различные домены рабочих нагрузок, каждый из которых может быть настроен для поддержки конкретных типов виртуальных машин, оптимизируя производительность рабочих нагрузок и использование ресурсов GPU.

Поддержка новой модели лицензирования VMware Cloud Foundation

Для дальнейшего упрощения развертывания, VMware Cloud Foundation 5.1.1 предлагает опцию развертывания единого лицензионного ключа решения, которая теперь включает 60-дневный пробный период. Дополнительные продукты и аддоны к VMware Cloud Foundation теперь также могут быть подключены на основе единого ключа (отметим, что лицензия vSAN на TiB является исключением на данный момент и все еще должна применяться отдельно). Поддержка отдельных компонентных лицензионных ключей продолжается, но новая функция единого ключа должна упростить лицензирование решений на базе развертываний VMware Cloud Foundation.

VMware Cloud Foundation 5.1.1 доступен для загрузки и развертывания уже сейчас. Доступ к VMware Private AI Foundation with NVIDIA можно запросить здесь.

Дополнительные ссылки:

Таги: VMware, Cloud, VCF, Update, NVIDIA, Private AI, GenAI, Licansing

Анонсирована доступность (Initial Availability) решения VMware Private AI Foundation with NVIDIA

На конференции Explore 2023 компания VMware объявила о новой инициативе в области поддержки систем генеративного AI - VMware Private AI. Сейчас, когда технологии генеративного AI выходят на первый план, особенно важно организовать инфраструктуру для них - то есть подготовить программное и аппаратное обеспечение таким образом, чтобы расходовать ресурсы, необходимые для AI и ML, наиболее эффективно, так как уже сейчас в сфере Corporate AI требуются совершенно другие мощности, чтобы обслуживать эти задачи.

Генеративный искусственный интеллект (Gen AI) - одно из важнейших восходящих направлений, которые изменят ландшафт компаний в течение следующих 5-10 лет. В основе этой волны инноваций находятся большие языковые модели (LLM), обрабатывающие обширные и разнообразные наборы данных. LLM позволяют людям взаимодействовать с моделями искусственного интеллекта через естественный язык как в текстовой форме, так и через речь или изображения.

Инвестиции и активность в области исследований и разработок LLM заметно возросли, что привело к обновлению текущих моделей и выпуску новых, таких как Gemini (ранее Bard), Llama 2, PaLM 2, DALL-E и другие. Некоторые из них являются открытыми для общественности, в то время как другие являются собственностью компаний, таких как Google, Meta и OpenAI. В ближайшие несколько лет ценность GenAI будет определяться доработкой и настройкой моделей, адаптированных к конкретным областям бизнеса и отраслям. Еще одним важным развитием в использовании LLM является Retrieval Augmented Generation (RAG), при котором LLM привязываются к большим и разнообразным наборам данных, чтобы предприятия могли взаимодействовать с LLM по вопросам данных.

VMware предоставляет программное обеспечение, которое модернизирует, оптимизирует и защищает рабочие нагрузки самых сложных организаций в области обработки данных, на всех облачных платформах и в любом приложении. Платформа VMware Cloud Foundation помогает предприятиям внедрять инновации и трансформировать свой бизнес, а также развертывать широкий спектр приложений и услуг искусственного интеллекта. VMware Cloud Foundation обеспечивает единый платформенный подход к управлению всеми рабочими нагрузками, включая виртуальные машины, контейнеры и технологии искусственного интеллекта, через среду самообслуживания и автоматизированного ИТ-окружения.

На днях, на конференции NVIDIA GTC, VMware объявила о начальной доступности (Initial Availability) решения VMware Private AI Foundation with NVIDIA.

VMware Private AI Foundation with NVIDIA

VMware/Broadcom и NVIDIA стремятся раскрыть потенциал Gen AI и максимально использовать производительность совместной платформы.

Эта интегрированная платформа GenAI позволяет предприятиям запускать рабочие процессы RAG, внедрять и настраивать модели LLM и выполнять эти нагрузки в их центрах обработки данных, решая проблемы конфиденциальности, выбора, стоимости, производительности и комплаенса. Она упрощает развертывание GenAI для предприятий, предлагая интуитивный инструмент автоматизации, образы глубокого обучения виртуальных машин, векторную базу данных и возможности мониторинга GPU. Эта платформа представляет собой дополнительный SKU в дополнение к VMware Cloud Foundation. Обратите внимание, что лицензии NVIDIA AI Enterprise должны быть приобретены отдельно у NVIDIA.

Ключевые преимущества

Давайте разберем ключевые преимущества VMware Private AI Foundation с участием NVIDIA:

Обеспечение конфиденциальности, безопасности и соблюдения нормативов моделей искусственного интеллекта

VMware Private AI Foundation with NVIDIA предлагает архитектурный подход к обслуживанию искусственного интеллекта, обеспечивающий конфиденциальность, безопасность и контроль над корпоративными данными, а также более интегрированную систему безопасности и управления.

VMware Cloud Foundation обеспечивает продвинутые функции безопасности, такие как защита загрузки, виртуальный TPM, шифрование виртуальных машин и многое другое. В рамках услуг NVIDIA AI Enterprise включено программное обеспечение управления для использования рабочей нагрузки и инфраструктуры для масштабирования разработки и развертывания моделей искусственного интеллекта. Стек программного обеспечения для искусственного интеллекта включает более 4500 пакетов программного обеспечения с открытым исходным кодом, включая программное обеспечение сторонних производителей и программное обеспечение NVIDIA.

Часть услуг NVIDIA AI Enterprise включает патчи для критических и опасных уязвимостей (CVE) с производственными и долгосрочными ветвями поддержки и обеспечения совместимости API по всему стеку. VMware Private AI Foundation with NVIDIA обеспечивает средства развертывания, которые предоставляют предприятиям контроль над множеством регуляторных задач с минимальными изменениями в их текущей среде.

Ускоренная производительность моделей GenAI независимо от выбранных LLM

Broadcom и NVIDIA предоставляют программные и аппаратные средства для достижения максимальной производительности моделей GenAI. Эти интегрированные возможности, встроенные в платформу VMware Cloud Foundation, включают мониторинг GPU, горячую миграцию и балансировку нагрузки, мгновенное клонирование (возможность развертывания кластеров с несколькими узлами с предварительной загрузкой моделей за несколько секунд), виртуализацию и пулы GPU, а также масштабирование ввода/вывода GPU с помощью NVIDIA NVLink и NVIDIA NVSwitch.

Недавнее исследование сравнивало рабочие нагрузки искусственного интеллекта на платформе VMware + NVIDIA AI-Ready Enterprise с bare metal. Результаты показывают производительность, сравнимую или даже лучшую, чем на bare metal. Таким образом, размещение рабочих нагрузок искусственного интеллекта на виртуализированных решениях сохраняет производительность и приносит преимущества виртуализации, такие как упрощенное управление и улучшенная безопасность. NVIDIA NIM позволяет предприятиям выполнять операции на широком диапазоне оптимизированных LLM, от моделей NVIDIA до моделей сообщества, таких как Llama-2, и до LLM с открытым исходным кодом, таких как Hugging Face, с высокой производительностью.

Упрощение развертывания GenAI и оптимизация затрат

VMware Private AI Foundation with NVIDIA помогает предприятиям упростить развертывание и достичь экономичного решения для своих моделей GenAI. Он предлагает такие возможности, как векторная база данных для выполнения рабочих процессов RAG, виртуальные машины глубокого обучения и мастер автоматического запуска для упрощения развертывания. Эта платформа реализует единые инструменты и процессы управления, обеспечивая значительное снижение затрат. Этот подход позволяет виртуализировать и использовать общие ресурсы инфраструктуры, такие как GPU, CPU, память и сети, что приводит к существенному снижению затрат, особенно для случаев использования, где полноценные GPU могут быть необязательными.

Архитектура

VMware Cloud Foundation, полноценное решение для частного облачного инфраструктуры, и NVIDIA AI Enterprise, полнофункциональная облачная платформа, образуют основу платформы VMware Private AI Foundation with NVIDIA. Вместе они предоставляют предприятиям возможность запуска частных и безопасных моделей GenAI.

Основные возможности, которые следует выделить:

1. Специальные возможности, разработанные VMware

Давайте подробнее рассмотрим каждую из них.

Шаблоны виртуальных машин для глубокого обучения

Настройка виртуальной машины для глубокого обучения может быть сложным и затратным процессом. Ручное создание может привести к недостатку согласованности и, следовательно, к недостаточной оптимизации в различных средах разработки. VMware Private AI Foundation with NVIDIA предоставляет виртуальные машины для глубокого обучения, которые поставляются предварительно настроенными с необходимыми программными средствами, такими как NVIDIA NGC, библиотеками и драйверами, что освобождает пользователей от необходимости настраивать каждый компонент.

Векторные базы данных для выполнения рабочих процессов RAG

Векторные базы данных стали очень важным компонентом для рабочих процессов RAG. Они обеспечивают быстрый запрос данных и обновление в реальном времени для улучшения результатов LLM без необходимости повторного обучения этих моделей, что может быть очень затратным и долгим. Они стали стандартом для рабочих процессов GenAI и RAG. VMware применяет векторные базы данных, используя pgvector на PostgreSQL. Эта возможность управляется с помощью автоматизации в рамках инфраструктуры служб данных в VMware Cloud Foundation. Сервис управления данными упрощает развертывание и управление базами данных с открытым исходным кодом и коммерческими базами данных из одного интерфейса.

Мастер настройки каталога

Создание инфраструктуры для проектов искусственного интеллекта включает несколько сложных шагов. Эти шаги выполняются администраторами, специализирующимися на выборе и развертывании соответствующих классов виртуальных машин, кластеров Kubernetes, виртуальных графических процессоров (vGPU) и программного обеспечения для искусственного интеллекта/машинного обучения, такого как контейнеры в каталоге NGC.

В большинстве предприятий исследователи данных и DevOps тратят значительное количество времени на сборку необходимой им инфраструктуры для разработки и производства моделей искусственного интеллекта/машинного обучения. Полученная инфраструктура может не соответствовать требованиям безопасности и масштабируемости для разных команд и проектов. Даже при оптимизированных развертываниях инфраструктуры для искусственного интеллекта/машинного обучения исследователи данных и DevOps могут тратить значительное количество времени на ожидание, когда администраторы создадут, составят и предоставят необходимые объекты каталога инфраструктуры для задач искусственного интеллекта/машинного обучения.

Для решения этих проблем VMware Cloud Foundation представляет мастер настройки каталога (Catalog Setup Wizard) - новую возможность Private AI Automation Services. На начальном этапе LOB-администраторы могут эффективно создавать, составлять и предоставлять оптимизированные объекты каталога инфраструктуры искусственного интеллекта через портал самообслуживания VMware Cloud Foundation. После публикации DevOps исследователи данных могут легко получить доступ к элементам каталога машинного обучения и развернуть их с минимальными усилиями. Мастер настройки каталога снижает ручную нагрузку для администраторов и сокращает время ожидания, упрощая процесс создания масштабируемой инфраструктуры.

Мониторинг GPU

Получая видимость использования и метрик производительности GPU, организации могут принимать обоснованные решения для оптимизации производительности, обеспечения надежности и управления затратами в средах с ускорением на GPU. С запуском VMware Private Foundation with NVIDIA сразу доступны возможности мониторинга GPU в VMware Cloud Foundation. Это дает администраторам дэшборды с информацией об использовании GPU в рамках кластеров и хостов, в дополнение к существующим метрикам мониторинга.

2. Возможности NVIDIA AI Enterprise

NVIDIA NIM

NVIDIA NIM - это набор простых в использовании микросервисов, разработанных для ускорения развертывания GenAI на предприятиях. Этот универсальный микросервис поддерживает модели NVIDIA AI Foundation Models - широкий спектр моделей - от ведущих моделей сообщества до моделей, созданных NVIDIA, а также индивидуальные пользовательские модели искусственного интеллекта, оптимизированные для стека NVIDIA. Созданный на основе фундаментальных компонентов NVIDIA Triton Inference Server, NVIDIA TensorRT, TensorRT-LLM и PyTorch, NVIDIA NIM предназначен для обеспечения масштабируемых и гибких моделей AI.

NVIDIA Nemo Retriever

NVIDIA NeMo Retriever - это часть платформы NVIDIA NeMo, которая представляет собой набор микросервисов NVIDIA CUDA-X GenAI, позволяющих организациям без проблем подключать пользовательские модели к разнообразным бизнес-данным и предоставлять высокоточные ответы. NeMo Retriever обеспечивает поиск информации самого высокого уровня с минимальной задержкой, максимальной пропускной способностью и максимальной конфиденциальностью данных, позволяя организациям эффективно использовать свои данные и генерировать бизнес-инсайты в реальном времени. NeMo Retriever дополняет приложения GenAI расширенными возможностями RAG, которые могут быть подключены к бизнес-данным в любом месте их хранения.

NVIDIA RAG LLM Operator

Оператор NVIDIA RAG LLM упрощает запуск приложений RAG в производственную среду. Он оптимизирует развертывание конвейеров RAG, разработанных с использованием примеров рабочих процессов искусственного интеллекта NVIDIA, в производственной среде без переписывания кода.

NVIDIA GPU Operator

Оператор NVIDIA GPU автоматизирует управление жизненным циклом программного обеспечения, необходимого для использования GPU с Kubernetes. Он обеспечивает расширенные функциональные возможности, включая повышенную производительность GPU, эффективное использование ресурсов и телеметрию. Оператор GPU позволяет организациям сосредотачиваться на создании приложений, а не на управлении инфраструктурой Kubernetes.

Поддержка ведущих производителей серверного оборудования

Платформа от VMware и NVIDIA поддерживается ведущими производителями серверного оборудования, такими как Dell, HPE и Lenovo.

Более подробно о VMware Private AI Foundation with NVIDIA можно узнать тут и тут.

Таги: VMware, NVIDIA, GenAI, AI, Private AI, Update

Бета-программа VMware AI for Tanzu Application Service

Этой осенью VMware объявила о старте бета-программы по внедрению функциональности AI в решение VMware Tanzu Application Service, которая будет запущена в самое ближайшее время. Клиенты, заинтересованные в запуске частных AI-услуг в своей среде Tanzu Application Service, могут зарегистрироваться в этой бета-программе, чтобы получить ранний доступ к тому, что VMware строит в экосистеме Tanzu Application Service, используя технологии Private AI.

VMware стремится расширить общую функциональность платформы Tanzu Application Service по мере развития бета-программы, чтобы понять потребности клиентов в частных системах искусственного интеллекта.

Как будет выглядеть AI, работающий на Tanzu Application Service? Некоторые из этих возможностей могут включать:

Приложения в стиле генеративного AI, работающие в основе Tanzu Application Service
Сервисы крупномасштабной языковой модели (LLM), развернутые с помощью BOSH, которые будут размещены в ваших средах Tanzu Application Service
Частный доступ к этим LLM с использованием существующего сетевого пространства Tanzu Application Service в ваших центрах обработки данных или виртуальных частных облаках
Возможность использовать интерфейс cf push для создания и запуска частных AI-приложений
Расширение рынка Tanzu Application Service с предложениями, позволяющими прямое связывание различных сервисов с LLM
Исследование путей развертывания частных AI-решений Tanzu Application Service на основе VMware Private AI Foundations

Вот предварительный обзор того, как частные AI-решения будут работать в Tanzu Application Service с использованием LLM, размещенных с помощью BOSH:

Таги: VMware, Private AI, BOSH, AI, ChatGPT, Tanzu, Update, Cloud, Enterprise, Beta

Новые инициативы VMware и Intel в сфере Private AI

Не так давно мы подробно рассказывали об инициативе Private AI компании VMware, которая позволит создать надежную инфраструктуру для корпоративных систем искусственного интеллекта. Сегодня мы расскажем о новых инициативах VMware и Intel в этой сфере.

Поскольку AI обеспечивает огромный рост производительности и позволяет создавать новые возможности, многие основные функции в типичном бизнесе будут трансформироваться, включая продажи, маркетинг, разработку программного обеспечения, операции с клиентами и обработку документов. Компания McKinsey прогнозирует, что влияние генеративного AI на производительность может добавить около $4.4 триллиона ежегодно к мировой экономике.

Но в основе этого остается конфиденциальность данных предприятий. Поэтому в августе 2023 года на мероприятии VMware Explore в Лас-Вегасе VMware объявила о запуске VMware Private AI и VMware Private AI Foundation с NVIDIA. Ну а на конференции Explore Europe было объявлено о дальнейшем расширении экосистемы VMware Private AI с двумя ключевыми партнерами.

VMware Private AI с Intel дает возможность использования AI для всех организаций

VMware и Intel сотрудничают более 20 лет для обеспечения возможностей следующего поколения - от центров обработки данных до облаков с самым широким портфолио надежных корпоративных решений, позволяющих компаниям двигаться быстрее, внедрять больше инноваций и работать эффективнее.

VMware и Intel помогут предприятиям создавать и развёртывать частные и безопасные модели AI, работающие на основе архитектуры VMware Cloud Foundation, и повысить производительность AI, используя программный пакет Intel AI software suite, процессоры Intel Xeon Scalable четвёртого поколения со встроенными ускорителями и графическими процессорами Intel Max Series.

Давайте рассмотрим, какую ценность предприятия могут ожидать от этого партнёрства.

Обеспечение конфиденциальности и безопасности для моделей AI: архитектурный подход VMware Private AI для AI-сервисов обеспечивает конфиденциальность и контроль корпоративных данных, а также интегрированную безопасность и управление. Это партнёрство поможет предприятиям создать и развернуть частные и безопасные модели AI с интегрированными возможностями безопасности в VCF и его компонентах.
Повышение производительности AI: достижение высокой производительности моделей AI и LLM с использованием интегрированных возможностей, встроенных в VCF, процессоры Intel, аппаратные ускорители и оптимизированное программное обеспечение. Например, vSphere, один из основных компонентов VCF, включает планировщик Distributed Resources Scheduler (DRS), который улучшает управление рабочими нагрузками AI, группируя хосты в кластеры ресурсов для разных приложений и обеспечивая доступ ВМ к необходимому количеству вычислительных ресурсов, предотвращая узкие места на уровне ресурсов и оптимизируя их использование.
Повсеместный доступ к AI: VMware и Intel предоставляют предприятиям полностью проверенный стек ИИ на уже развёрнутых кластерах. Этот стек позволяет предприятиям проводить подготовку данных, машинное обучение, тонкую настройку и оптимизацию вывода, используя процессоры Intel, аппаратные ускорители, программный пакет Intel для AI и VCF в вашей локальной среде.

Архитектура решения

VMware Private AI на базе Intel поддерживает как генеративный AI, так и классические случаи использования AI/ML. Он использует мощность VMware Cloud Foundation и программного пакета Intel для AI, процессоров и аппаратных ускорителей. Эта архитектурная экосистема объединяет VMware, Intel, поставщиков ML Ops (cnvrg.io, Domino Data Labs, DKube, Kubeflow и т.д.), крупных производителей серверов OEM (таких как Dell Technologies, Hewlett Packard Enterprise и Lenovo), и глобальных системных интеграторов, таких как HCL, Kyndryl и Wipro.

Варианты использования

VMware Private AI и сотрудничество с Intel позволяют предприятиям использовать несколько сценариев, безопасно внедряя классические модели AI/ML и большие языковые модели, тонкую настройку и развертывание их в частной корпоративной среде. Вот описание основных случаев использования.

Генерация кода: предприятия могут использовать свои модели без риска потери интеллектуальной собственности или данных и ускорить работу разработчиков, включив генерацию кода.
Опыт решения проблем в контактных центрах: предприятия могут настраивать модели на основе своей внутренней документации и статей базы знаний, включая конфиденциальные данные поддержки, и, в свою очередь, обеспечить более эффективное обслуживание клиентов и поддержку с существенным сокращением человеческого взаимодействия в инцидентах поддержки/обслуживания.
Классическое машинное обучение: классические модели ML используются для различных реальных приложений в таких отраслях, как финансовые услуги, здравоохранение и Life Sciences, розничная торговля, исследования и производство. Популярные случаи использования ML включают персонализированный маркетинг, визуальный контроль качества в производстве, персонализированную медицину и прогнозирование спроса в розничной торговле.
Рекомендательные движки: предприятия могут улучшить взаимодействие с потребителями, предлагая или рекомендуя дополнительные продукты. Это может основываться на различных критериях, включая предыдущие покупки, историю поиска, демографическую информацию и другие факторы.

VMware Private AI с IBM обеспечивает доступ к WatsonX в локальных средах

IBM и VMware работают над VMware Private AI, чтобы позволить предприятиям получить доступ к платформе IBM WatsonX в частных, локальных средах и гибридном облаке для безопасного обучения и тонкой настройки своих моделей с помощью платформы WatsonX. Стратегическое партнерство между IBM и VMware направлено на то, чтобы обеспечить клиентам возможность легко перейти на гибридное облако и модернизировать их критически важные рабочие нагрузки. Теперь, имея возможность выбора времени, места и способа интеграции технологий GenAI с VMware Cloud Foundation, предприятия смогут быстро обучать и развертывать индивидуальные возможности AI в рамках всего предприятия, сохраняя при этом полный контроль и соответствие требованиям к их данным. Благодаря этому партнерству в области AI между VMware и IBM, предприятия получают мощное решение, использующее лучшие инновации от локальных решений VMware в едином стеке, чтобы обеспечить унифицированную среду, интегрированную с данными и возможностями AI, предоставляемыми технологией партнера IBM Cloud.

Получите частные и безопасные модели с VMware Private AI: конфиденциальность и безопасность имеют первостепенное значение для предприятий. Теперь предприятия могут создавать свои частные и безопасные модели AI с VMware Private AI с IBM, используя несколько интегрированных возможностей конфиденциальности, безопасности и микросегментации в VCF.
Развертывание моделей AI/ML в локальной среде и в облаке: это партнерство позволяет предприятиям обучать, проверять, настраивать и развертывать частные и безопасные модели AI/ML как в локальной среде, так и в облаке IBM Cloud.
Выбор между открытыми или проприетарными моделями IBM: это партнерство позволяет предприятиям выбирать большие языковые модели (LLM), предоставляя доступ к открытым моделям от Hugging Face, выбранным IBM, моделям сторонних производителей и серии обученных IBM фундаментальных моделей.

Вот несколько примеров поддерживаемых моделей, доступных на watsonx.ai:

Открытые модели: Llama 2 (70b)
Модели сторонних производителей: StarCoder (15.5b)
Проприетарные модели IBM: Granite (13b)

Архитектура решения

Эта полноценная архитектура, построенная на основе VMware Cloud Foundation, использует Red Hat OpenShift и сочетает в себе возможности платформы IBM WatsonX для Gen AI и классических AI/ML-нагрузок с Enterprise-уровнем безопасности. С помощью этой архитектуры предприятия могут использовать watsonx.ai для доступа к открытым моделям IBM, выбранным из Hugging Face, а также к другим моделям сторонних производителей и серии обученных IBM фундаментальных моделей для поддержки вариантов использования GenAI и для обучения, проверки, настройки и развертывания классических моделей AI/ML.

Варианты использования

VMware Private AI с IBM может обеспечить несколько сценариев использования для предприятий, безопасно активируя настройку больших языковых моделей, тонкую настройку и развертывание их в частной корпоративной среде. В области генерации кода акцент сделан на ускорении продуктивности разработчиков с учетом критически важных вопросов конфиденциальности и интеллектуальной собственности. Кроме того, VMware Private AI в сотрудничестве с IBM представляет значительную возможность улучшить взаимодействие в контактных центрах. Это партнерство обещает улучшение качества контента и обратной связи для клиентов, что приводит к более точным ответам и, в целом, улучшению клиентского опыта. Это партнерство может значительно упростить ИТ-операции, автоматизировав задачи, такие как управление инцидентами, отчетность, управление тикетами и мониторинг, в конечном итоге экономя время и усилия агентов ИТ-операций. Наконец, продвинутые возможности поиска информации, возникшие благодаря этому сотрудничеству, могут повысить продуктивность сотрудников, оптимизируя поиск документов и исследование политик, способствуя более продуктивной рабочей среде.

IBM Consulting предоставляет клиентам экспертизу в решениях, специфичных для VMware и генеративного AI

Ранее в этом году IBM Consulting создала Центр компетенции по генеративному AI и теперь имеет более 1000 консультантов со специализированными знаниями в области генеративного AI, которые работают с глобальными клиентами, чтобы повысить производительность в ИТ-операциях и основных бизнес-процессах, таких как кадровые или маркетинговые, улучшить клиентский опыт и создать новые бизнес-модели.

Это, в сочетании с экспертизой IBM, специфичной для VMware, и сервисными возможностями, поможет ускорить бизнес-трансформации клиентов с использованием корпоративного AI на архитектуре VMware Private AI.

Кроме того, для клиентов, желающих модернизировать и трансформировать свои рабочие нагрузки, IBM Consulting планирует интегрировать услуги IBM WatsonX и VMware Private AI в свой проприетарный IBM Consulting Cloud Accelerator, чтобы помочь ускорить процесс трансформации инфраструктур в облака. После релиза эта интеграция поможет с процессами reverse engineering и генерацией кода, а также с управлением операциями Day-2 и последующими для бесперебойного предоставления услуг управления гибридным облаком от IBM Consulting.

Полезные ссылки

Таги: VMware, Private AI, Intel, Hardware, IBM, AI

Интересное:

Зал Славы Рекламодателя

Ближайшие события в области виртуализации:

Быстрый переход:

VMware Kubernetes VMachines Enterprise Offtopic Broadcom Veeam Microsoft Cloud StarWind NAKIVO vStack Gartner Vinchin Nakivo IT-Grad Teradici VeeamON VMworld PowerCLI Citrix VSAN GDPR 5nine Hardware Nutanix vSphere RVTools Security Code Cisco vGate SDRS Parallels IaaS HP VMFS VM Guru Oracle Red Hat Azure KVM VeeamOn 1cloud DevOps Docker Storage NVIDIA Partnership Dell Virtual SAN Virtualization VMTurbo vRealize VirtualBox Symantec Softline EMC Login VSI Xen Amazon NetApp VDI Linux Hyper-V IBM Google VSI Security Windows vCenter Webinar View VKernel Events Windows 7 Caravan Apple TPS Hyper9 Nicira Blogs IDC Sun VMC Xtravirt Novell IntelVT Сравнение VirtualIron XenServer CitrixXen ESXi ESX ThinApp Books P2V Workstation VCF VKS Avi esxtop Memory VMConAWS vSAN Private AI VMmark Operations Certification NVMe AI vDefend VCDX Explore Tanzu Update Russian Ports HCX Live Recovery CloudHealth NSX Labs Backup Chargeback Aria VCP Intel Community Ransomware Stretched Network VMUG VCPP Data Protection ONE V2V DSM DPU Omnissa EUC Skyline Host Client GenAI Horizon SASE Workspace ONE Networking Tools Performance Lifecycle AWS API USB SDDC Fusion Whitepaper SD-WAN Mobile SRM ARM HCI Converter Photon OS VEBA App Volumes Workspace Imager SplinterDB DRS SAN vMotion Open Source iSCSI Partners HA Monterey RDMA vForum Learning vRNI UAG Support Log Insight AMD vCSA NSX-T Graphics HCIBench SureBackup Docs Carbon Black vCloud Обучение Web Client vExpert OpenStack UEM CPU PKS vROPs Stencils Bug VTL Forum Video Update Manager VVols DR Cache Storage DRS Visio Manager Virtual Appliance PowerShell LSFS Client Availability Datacenter Agent Book Photon Cloud Computing SSD Comparison Blast Encryption Nested XenDesktop VSA vNetwork SSO VMDK Appliance VUM HoL Automation Replication Desktop Fault Tolerance Vanguard SaaS Connector Event Free SQL Sponsorship Finance FT Containers XenApp Snapshots vGPU Auto Deploy SMB RDM Mirage XenClient MP iOS SC VMM VDP PCoIP RHEV vMA Award Licensing Logs Server Demo vCHS Calculator Бесплатно Beta Exchange MAP DaaS Hybrid Monitoring VPLEX UCS GPU SDK Poster VSPP Receiver VDI-in-a-Box Deduplication Reporter vShield ACE Go nworks iPad XCP Data Recovery Documentation Sizing Pricing VMotion Snapshot FlexPod VMsafe Enteprise Monitor vStorage Essentials Live Migration SCVMM TCO Studio AMD-V Capacity KB VirtualCenter NFS ThinPrint Troubleshooting Tiering Upgrade VCAP Orchestrator ML Director SIOC Bugs ESA Android Python Hub Guardrails CLI Driver Foundation HPC Optimization SVMotion Diagram Plugin Helpdesk VIC VDS Migration Air DPM Flex Mac SSH VAAI Heartbeat MSCS Composer

Полезные постеры:

Постер VMware vSphere PowerCLI 10

Постер VMware Cloud Foundation 4 Architecture

Постер VMware vCloud Networking

Постер VMware Cloud on AWS Logical Design Poster for Workload Mobility

Постер Azure VMware Solution Logical Design

Постер Google Cloud VMware Engine Logical Design

Постер Multi-Cloud Application Mobility

Постер VMware NSX (референсный):

Постер VMware vCloud SDK:

Постер VMware vCloud Suite:

Управление памятью в VMware vSphere 5:

Как работает кластер VMware High Availability:

Постер VMware vSphere 5.5 ESXTOP (обзорный):

Все самое нужное о виртуализации и облаках

Более 6520 заметок о VMware, AWS, Azure, Veeam, Kubernetes и других

Развертывание VMware Private AI Foundation with NVIDIA с использованием VCF Automation

Развертывание VMware Private AI на серверах HGX с использованием Broadcom Ethernet Networking

Что охватывает этот документ?

Ключевые особенности решения

Валидация производительности

VMware Cloud Foundation 9.0 как AI-native платформа: что именно изменилось

Слой AI-сервисов в VCF 9.0

Ядро VCF 9.0: что поменялось в самой платформе

Аппаратные улучшения/сетевой стек для AI

Как это интегрируется в вашм бизнес-процессы

Лицензирование/доставка и пути обновления

Вывод

Производительность виртуализованных нагрузок на платформе VMware Cloud Foundation для целей генеративного AI

Тестирование AI/ML нагрузок в виртуальной среде

Аппаратное и программное обеспечение

Бенчмарки

Сравнение производительности виртуализованных и bare-metal ML/AI-нагрузок

Вывод

Новый документ: VMware Private AI Foundation with NVIDIA on HGX Servers

Зачем бизнесу нужна частная инфраструктура AI?

Основные компоненты платформы VMware Private AI Foundation с NVIDIA

Референсная архитектура для задач инференса

Производительность и валидация

Почему компании выбирают VMware Private AI Foundation с NVIDIA?

Итоговые выводы

Новые cценарии применения генеративного AI и фокус на безопасной генерации контента

Документ по информационной безопасности частной AI-инфраструктуры "VMware Private AI Foundation – Privacy and Security Best Practices"

Сценарии использования для различных реализаций VMware Private AI Foundation with NVIDIA

Сценарий использования 1: создание чат-бота, понимающего приватные данные компании

Как VMware Private AI Foundation с NVIDIA позволяет создать чат-бота для работы с приватными данными

Сценарий использования 2: ассистента кода для помощи инженерам в процессе разработки

Интересное видео: RAG Pipelines с VMware Private AI Foundation и NVIDIA - использование AI для повышения эффективности

Для кого это видео:

Анонсы VMware Explore 2024 Europe: расширение экосистемы Private AI за счет решения Microsoft Azure AI Video Indexer

Возможности VMware Private AI и Azure Video Indexer

Зачем интегрировать VMware Private AI с Azure Video Indexer on Arc?

Примеры использования

Анонсы VMware Explore 2024: новый сервис Summarize-and-Chat на платформе VMware Private AI

Сервис Summarize-and-Chat

Ключевые особенности

Шаги развертывания

Использование Summarize-and-Chat

Чат с вашим документом

Что дальше

Создание приложений промышленного уровня на базе AI на платформе VMware Private AI Foundation с использованием микросервисов NVIDIA NIM

Анатомия улучшенного RAG Starter Pack

Заключение

Рекомендации по серверному оборудованию для VMware Private AI Foundation with NVIDIA

Валидированное решение VMware Private AI Ready Validated Solution для VMware Cloud Foundation

Решение VMware Private AI Foundation with NVIDIA доступно в рамках General Availability

Службы Automation Services для VMware Private AI

Вышло обновление VMware Cloud Foundation 5.1.1 - что нового?

Анонсирована доступность (Initial Availability) решения VMware Private AI Foundation with NVIDIA

VMware Private AI Foundation with NVIDIA

Ключевые преимущества

Архитектура

Бета-программа VMware AI for Tanzu Application Service

Новые инициативы VMware и Intel в сфере Private AI

VMware Private AI с Intel дает возможность использования AI для всех организаций

VMware Private AI с IBM обеспечивает доступ к WatsonX в локальных средах

Полезные ссылки