Текстовая генерация и суммаризация с использованием GenAI становятся мейнстримом благодаря своей способности быстро создавать точные и связные резюме нужной информации. Хотя есть общедоступные инструменты для суммаризации, компании могут предпочесть внутренние решения по причинам конфиденциальности данных, безопасности и соблюдения регулятивных норм. Поэтому возникает потребность в локальных продуктах, которые могут адаптироваться к требованиям организации и ее правилам управления данными.
Команды часто сталкиваются с серьезными препятствиями при создании собственных решений на основе машинного обучения. Какую технику суммаризации следует использовать для больших документов, которые превышают размер контекстного окна моделей LLM? Какие библиотеки лучше всего подходят для парсинга больших документов, таких как PDF, с их сложными структурами (например, таблицы, графики и изображения)? Какая LLM подходит для суммаризации длинных расшифровок встреч, где есть множество смен диалогов, что затрудняет понимание ценной контекстной информации? Какие эффективные подсказки (prompts) следует использовать для выбранных моделей?
Сервис Summarize-and-Chat
Summarize-and-Chat — это проект с открытым исходным кодом для VMware Private AI, который решает вышеуказанные задачи и помогает командам начать работу с их кейсами. Этот проект может быть развернут на VMware Private AI Foundation с NVIDIA, чтобы клиенты могли начать использовать GenAI на своих приватных данных. Данная возможность предоставляет универсальный и масштабируемый подход для типичных задач суммаризации, обеспечивая взаимодействие на естественном языке через чат-интерфейсы. Интеграция суммаризации документов и общения через чат в единой системе имеет несколько преимуществ. Во-первых, это позволяет пользователям получать краткие резюме различного контента, включая статьи, отзывы клиентов, баги/проблемы или пропущенные встречи.
Во-вторых, благодаря использованию LLM для чатов, данная возможность обеспечивает более вовлекающие и контекстно-осведомленные разговоры, повышая удовлетворенность пользователей.
Ключевые особенности
Summarize-and-Chat предоставляет следующие возможности:
Поддержка различных типов и форматов документов (PDF, DOCX, PPTX, TXT, VTT и популярных аудиофайлов - mp3, mp4, mpeg, mpga, m4a, wav и webm).
Поддержка открытых LLM на движке вывода, совместимого с OpenAI.
Интуитивно понятный пользовательский интерфейс для загрузки файлов, генерации резюме и чатов.
Суммаризация:
Вставляйте, копируйте или загружайте файлы и просматривайте их.
Выбирайте способ суммаризации (пользовательские подсказки, размер фрагмента, диапазон страниц для документов или временной диапазон для аудио).
Регулируйте длину резюмирующего вывода.
Получайте резюме за считанные секунды и загружайте его.
Чат с вашим документом:
Автоматически сгенерированные вопросы по документу.
Получайте ответ с указанием источника за считанные секунды.
Анализ инсайтов:
Выбирайте два или более документа.
Пишите запрос для сравнения или определения инсайтов из выбранных документов.
Преобразование речи в текст.
Поддержка различных PDF-парсеров: PyPDF, PDFMiner, PyMUPDF.
API.
Шаги развертывания
Настройка Summarize-and-Chat проста и включает несколько конфигурационных шагов для каждого компонента.
Summarize-and-Chat включает три компонента:
1. Summarization-client: веб-приложение на Angular/Clarity. 2. Summarization-server: сервер-шлюз на FastAPI для управления основными функциями приложения, включая:
Контроль доступа.
Пайплайн обработки документов: обработка документов, извлечение метаданных для заполнения векторного индекса (текстовые эмбеддинги).
Суммаризация с использованием LangChain Map Reduce. Этот подход позволяет суммаризовать большие документы, которые превышают лимит токенов на входе модели.
Улучшенное извлечение с помощью Retrieval Augmented Generation (RAG), используя возможности ранжирования LlamaIndex и pgvector для повышения производительности в системах вопрос-ответ.
3. Speed-to-text (STT): преобразование аудио в текст с использованием OpenAI's faster-whisper.
Следуйте инструкциям по быстрой установке и настройке в файле README, и вы сможете начать работу через несколько минут.
Использование Summarize-and-Chat
Теперь давайте посмотрим, как можно использовать Summarize-and-Chat для суммаризации длинного PDF-документа и полноценного взаимодействия с ним.
Для начала войдите в клиент суммаризации, используя ваши учетные данные Okta.
1. Загрузите файл и добавьте метаданные (дату, версию).
2. Выберите опцию QUICK для краткого резюме или DETAILED для детальной суммаризации.
3. Нажмите кнопку SUMMARIZE, и резюме будет сгенерировано мгновенно. Для длинного документа вы увидите оценку времени и получите уведомление, когда резюме будет готово к загрузке.
Чат с вашим документом
Вы можете нажать на иконку "чат" в верхнем меню, чтобы начать общение с вашим документом. Вы можете выбрать один из автоматически сгенерированных вопросов или ввести свой собственный вопрос и получить ответ с указанием источника за несколько секунд.
Что дальше
Broadcom представила Summarize-and-Chat с открытым исходным кодом, чтобы поддержать проекты по работе с данными и машинному обучению на платформе VMware Private AI.
Если вы хотите принять участие в проекте, пожалуйста, ознакомьтесь с этим руководством.
В рамках анонсов конференции Explore 2024, касающихся VMware Private AI Foundation с NVIDIA (PAIF-N), в компании VMware решили обновить Improved RAG Starter Pack v2.0, чтобы помочь клиентам воспользоваться новейшими микросервисами для инференса NVIDIA (модули NIM), которые обеспечивают атрибуты промышленного уровня (надёжность, масштабируемость и безопасность) для языковых моделей, используемых в системах Retrieval Augmented Generation (RAG).
Следуя духу оригинального Improved RAG Starter Pack (v1.0), Broadcom предлагает серию Jupyter-блокнотов, реализующих улучшенные методы поиска. Эти методы обогащают большие языковые модели (LLMs) актуальными и достоверными контекстами, помогая им генерировать более точные и надёжные ответы на вопросы, связанные с специализированными знаниями, которые могут не быть частью их предобученного датасета. Благодаря этому можно эффективно снизить "галлюцинации" LLM и повысить надёжность приложений, управляемых AI.
Новые функции обновлённого Improved RAG Starter Pack:
Используются NVIDIA NIMs для LLM, текстовых встраиваний и ранжирования текстов — трёх основных языковых моделей, которые питают RAG-пайплайны.
Обновили LlamaIndex до версии v0.11.1.
Используются Meta-Llama3-8b-Instruct в качестве генератора LLM, который управляет RAG-пайплайном.
Заменили OpenAI GPT-4 на Meta-Llama-3-70b-Instruct как движок для DeepEval для выполнения двух ключевых задач, связанных с оценкой RAG-пайплайнов:
Для оценки ("судейства") RAG-пайплайнов путём оценки ответов пайплайна на запросы, извлечённые из набора для оценки. Каждый ответ оценивается по нескольким метрикам DeepEval.
Анатомия улучшенного RAG Starter Pack
Каталог репозитория GitHub, содержащий этот стартовый пакет, предоставляет пошаговое руководство по внедрению различных элементов стандартных систем RAG.
Помимо NVIDIA NIM, системы RAG используют такие популярные технологии, как LlamaIndex (фреймворк для разработки приложений на основе LLM), vLLM (сервис для инференса LLM) и PostgreSQL с PGVector (масштабируемая и надёжная векторная база данных, которую можно развернуть с помощью VMware Data Services Manager).
Все начинается с реализации стандартного RAG-пайплайна. Далее используется база знаний RAG для синтеза оценочного набора данных для оценки системы RAG. Затем улучшается стандартная система RAG за счет добавления более сложных методов поиска, которые будут подробно описаны далее. Наконец, различные подходы RAG оцениваются с помощью DeepEval и сравниваются для выявления их плюсов и минусов.
Структура каталога организована следующим образом.
Теперь давайте обсудим содержание каждой секции.
Настройка сервисов NIM и vLLM (00)
Эта секция содержит инструкции и скрипты для Linux shell, которые необходимы для развертывания сервисов NVIDIA NIM и vLLM, требуемых для реализации RAG-пайплайнов и их оценки.
Инициализация PGVector (01)
Эта секция предлагает несколько альтернатив для развертывания PostgreSQL с PGVector. PGVector — это векторное хранилище, которое будет использоваться LlamaIndex для хранения базы знаний (текстов, встраиваний и метаданных), что позволит расширить знания LLM и обеспечить более точные ответы на запросы пользователей.
Загрузка документов базы знаний (02)
Каждый демо-пример RAG и введение в RAG используют базу знаний для расширения возможностей генерации LLM при вопросах, касающихся областей знаний, которые могут не входить в предобученные данные моделей. Для этого стартового пакета VMware выбрала десять документов из коллекции электронных книг по истории от NASA, предлагая таким образом вариант типичных документов, часто используемых в туториалах по RAG.
Загрузка документов в систему (03)
Эта секция содержит начальный Jupyter-блокнот, где используется LlamaIndex для обработки электронных книг (формат PDF), их разбиения на части (узлы LlamaIndex), кодирования каждого узла в виде длинного вектора (встраивания) и хранения этих векторов в PostgreSQL с PGVector, который действует как наш векторный индекс и движок запросов. На следующем изображении показан процесс загрузки документов в систему.
После того как PGVector загрузит узлы, содержащие метаданные, текстовые фрагменты и их соответствующие встраивания, он сможет предоставить базу знаний для LLM, которая будет генерировать ответы на основе этой базы знаний (в нашем случае это книги по истории от NASA).
Генерация оценочного набора данных (04)
Jupyter-блокнот в этой папке демонстрирует использование Synthesizer из DeepEval для создания набора данных вопросов и ответов, который впоследствии будет использоваться метриками DeepEval для оценки качества RAG-пайплайнов. Это позволит определить, как изменения ключевых компонентов пайплайна RAG, таких как LLM, модели встраиваний, модели повторного ранжирования, векторные хранилища и алгоритмы поиска, влияют на качество генерации. Для синтетической генерации оценочного набора данных используется модель Meta-Llama-3-70b-Instruct.
Реализация вариантов RAG (05)
В этом каталоге содержатся три подкаталога, каждый из которых включает Jupyter-блокнот, исследующий один из следующих вариантов реализации RAG-пайплайна на основе LlamaIndex и открытых LLM, обслуживаемых через vLLM:
Стандартный RAG-пайплайн + повторное ранжирование: этот блокнот реализует стандартный RAG-пайплайн с использованием LlamaIndex, включая финальный этап повторного ранжирования, который управляется моделью ранжирования. В отличие от модели встраиваний, повторное ранжирование использует вопросы и документы в качестве входных данных и напрямую выдаёт степень схожести, а не встраивание. Вы можете получить оценку релевантности, вводя запрос и отрывок в модель повторного ранжирования. VMware использует следующие микросервисы NVIDIA (NIM) для работы RAG-системы:
Генератор LLM для RAG: Meta-Llama-3-8b-Instruct
Модель встраиваний для RAG: nvidia/nv-embedqa-e5-v5
Модель повторного ранжирования для RAG: nvidia/nv-rerankqa-mistral-4b-v3
Следующая картинка иллюстрирует, как работает эта RAG-система.
Извлечение с использованием окон предложений:
Метод извлечения с использованием окон фраз (Sentence Window Retrieval, SWR) улучшает точность и релевантность извлечения информации в RAG-пайплайнах, фокусируясь на определённом окне фраз вокруг целевой фразы. Такой подход повышает точность за счёт фильтрации нерелевантной информации и повышает эффективность, сокращая объём текста, обрабатываемого во время поиска.
Разработчики могут регулировать размер этого окна, чтобы адаптировать поиск к своим конкретным задачам. Однако у метода есть потенциальные недостатки: узкая фокусировка может привести к упущению важной информации в соседнем тексте, что делает выбор подходящего размера окна контекста критически важным для оптимизации как точности, так и полноты процесса поиска. Jupyter-блокнот в этой директории использует реализацию SWR от LlamaIndex через модуль Sentence Window Node Parsing, который разбивает документ на узлы, каждый из которых представляет собой фразу. Каждый узел содержит окно из соседних фраз в метаданных узлов. Этот список узлов повторно ранжируется перед передачей LLM для генерации ответа на запрос на основе данных из узлов.
Автоматическое слияние при извлечении:
Метод автоматического слияния при извлечении — это подход RAG, разработанный для решения проблемы фрагментации контекста в языковых моделях, особенно когда традиционные процессы поиска создают разрозненные фрагменты текста. Этот метод вводит иерархическую структуру, где меньшие текстовые фрагменты связаны с более крупными родительскими блоками. В процессе извлечения, если определённый порог меньших фрагментов из одного родительского блока достигнут, они автоматически сливаются. Такой подход гарантирует, что система собирает более крупные, связные родительские блоки, вместо извлечения разрозненных фрагментов. Ноутбук в этой директории использует AutoMergingRetriever от LlamaIndex для реализации этого варианта RAG.
Оценка RAG-пайплайна (06)
Эта папка содержит Jupyter-блокнот, который использует DeepEval для оценки ранее реализованных RAG-пайплайнов. Для этой цели DeepEval использует оценочный набор данных, сгенерированный на предыдущем шаге. Вот краткое описание метрик DeepEval, используемых для сравнения различных реализаций RAG-пайплайнов. Обратите внимание, что алгоритмы метрик DeepEval могут объяснить, почему LLM присвоил каждую оценку. В нашем случае эта функция включена, и вы сможете увидеть её работу.
Contextual Precision оценивает ретривер вашего RAG-пайплайна, проверяя, расположены ли узлы в вашем контексте поиска, которые релевантны данному запросу, выше, чем нерелевантные узлы.
Faithfulness оценивает качество генератора вашего RAG-пайплайна, проверяя, соответствует ли фактический вывод содержимому вашего контекста поиска.
Contextual Recall оценивает качество ретривера вашего RAG-пайплайна, проверяя, насколько контекст поиска соответствует ожидаемому результату.
Answer Relevancy измеряет, насколько релевантен фактический вывод вашего RAG-пайплайна по отношению к данному запросу.
Hallucination — эта метрика определяет, генерирует ли ваш LLM фактически корректную информацию, сравнивая фактический вывод с предоставленным контекстом. Это фундаментальная метрика, так как одной из главных целей RAG-пайплайнов является помощь LLM в генерации точных, актуальных и фактических ответов на запросы пользователей.
Оценки DeepEval были выполнены с использованием следующей конфигурации:
LLM-оценщик, оценивающий метрики DeepEval: Meta-Llama-3-70b-Instruct, работающая на vLLM в режиме guided-JSON.
Следующая таблица показывает результаты оценки из одного из экспериментов VMware, который включал более 40 пар вопросов и ответов.
Следующая диаграмма представляет другой ракурс взгляда на предыдущий результат:
Как показывает таблица, конкретная реализация RAG может показывать лучшие результаты по определённым метрикам, что указывает на их применимость к различным сценариям использования. Кроме того, метрики оценки помогают определить, какие компоненты ваших RAG-пайплайнов нуждаются в корректировке для повышения общей производительности системы.
Заключение
Обновлённый RAG Starter Pack предоставляет ценный инструментарий для тех, кто внедряет системы RAG, включая серию хорошо документированных Python-блокнотов, предназначенных для улучшения LLM за счёт углубления контекстного понимания. В этот пакет включены передовые методы поиска и такие инструменты, как DeepEval, для оценки системы, которые помогают снизить такие проблемы, как "галлюцинации" LLM, и повысить надёжность ответов AI. Репозиторий на GitHub хорошо структурирован и предлагает пользователям понятное пошаговое руководство, которому легко следовать, даже если вы не являетесь специалистом в области данных. Клиенты и партнёры Broadcom, использующие PAIF-N, найдут этот пакет полезным для запуска приложений на базе генеративного AI в инфраструктурах VMware Cloud Foundation. Ожидайте новых статей, в которых VMware рассмотрит ключевые аспекты безопасности и защиты в производственных RAG-пайплайнах.
Недавно на конференции NVIDIA GTC 2024 было объявлено о начальной доступности VMware Private AI Foundation with NVIDIA, что знаменует начало эпохи AI в датацентрах крупных заказчиков. VMware Private AI Foundation with NVIDIA позволяет пользователям запускать AI-нагрузки на собственной инфраструктуре, используя VMware Cloud Foundation (VCF) и экосистему программного обеспечения и графических процессоров NVIDIA.
Эта совместная платформа не только поддерживает более безопасные AI-нагрузки, но также добавляет гибкость и операционную эффективность при сохранении максимальной производительности. Кроме того, VCF добавляет уровень автоматизации, упрощающий развертывание виртуальных машин дата-сайентистами для глубокого обучения. Подробнее о данной процедуре написано здесь.
Хотя Broadcom и NVIDIA обеспечивают основные потребности в программном обеспечении, выбор лучшего оборудования для выполнения рабочих нагрузок Private AI также является ключевым элементом успешной реализации проектов в области AI. VMware сотрудничает с такими производителями серверов, как Dell, Fujitsu, Hitachi, HPE, Lenovo и Supermicro, чтобы составить исчерпывающий список поддерживаемых платформ, оптимизированных для работы с графическими процессорами NVIDIA и VMware Cloud Foundation. Хотя некоторые AI-задачи могут выполняться и на более старых графических процессорах NVIDIA A100, в настоящее время рекомендуется использовать NVIDIA L40 и H100 для современных AI-нагрузок, чтобы достичь оптимальной производительности и эффективности.
Серверы, перечисленные ниже, сертифицированы специально для VMware Private AI Foundation с NVIDIA. Процесс сертификации включает сертификацию партнера по графическим процессорам с аппаратной платформой, а также поддержку общего назначения графических процессоров с помощью VMware VM DirectPath IO. Обратите внимание, что дополнительные производители и графические процессоры будут добавлены позже, поэтому не забывайте проверять обновления.
Private AI Ready Infrastructure – это уже готовое модульное решение, которое предлагает руководство по проектированию, внедрению и эксплуатации для развертывания AI-нагрузок на стеке VMware Cloud Foundation. Используя GPU-ускоренные VCF Workload Domains, vSphere with Tanzu, NSX и vSAN, это решение обеспечивает прочную основу для современных инициатив в области AI.
Разбор сложностей инфраструктуры, связанных с GPU, и оптимизация AI-нагрузок может быть трудной задачей для администраторов без специальной экспертизы. Трудности, связанные с конфигурацией и управлением средами с GPU, значительны и часто требуют глубоких знаний характеристик оборудования, совместимости драйверов и оптимизации производительности. Однако с решением Private AI Ready Infrastructure VMware Validated Solution, организации могут обойти эти проблемы и уверенно развертывать свои AI нагрузки с проверенными валидированными конфигурациями и лучшими практиками.
Инфраструктура Private AI Foundation with NVIDIA также включена в состав решения VMware Validated Solution, предлагая клиентам возможность поднять свою AI инфраструктуру на новый уровень совместно с решением от NVIDIA.
Что входит в состав решения?
Детальный документ по проектированию архитектуры, охватывающий высокоскоростные сети, вычислительные мощности, хранилища и Accelerators для AI, а также компоненты VMware Private AI Foundation с NVIDIA.
Руководство по сайзингу
Руководство по внедрению
Руководство по эксплуатации и управлению жизненным циклом, включая проверку работоспособности с помощью VMware Starter Pack на основе vLLM RAG
Руководство по совместимости
Начало работы
Ели вы готовы раскрыть весь потенциал вашей Private AI инфраструктуры, получите доступ к этому решению VMware Validated Solution по этой ссылке.
Построенный и запущенный на ведущей в отрасли платформе для частного облака, VMware Cloud Foundation, VMware Private AI Foundation with NVIDIA включает в себя новые микросервисы NVIDIA NIM, модели искусственного интеллекта от NVIDIA и других участников сообщества (таких как Hugging Face), а также инструменты и фреймворки искусственного интеллекта от NVIDIA, доступные с лицензиями NVIDIA AI Enterprise.
VMware Private AI Foundation с NVIDIA — это дополнительный SKU на базе VMware Cloud Foundation. Лицензии программного обеспечения NVIDIA AI Enterprise необходимо приобретать отдельно. Это решение использует NVIDIA NIM — часть NVIDIA AI Enterprise, набор простых в использовании микросервисов, предназначенных для ускорения развертывания генеративных моделей AI в облаке, центрах обработки данных и на рабочих станциях.
С момента GA-релиза VMware Private AI Foundation с NVIDIA были также добавлены дополнительные возможности к этой платформе.
1. Мониторинг GPU
Панели мониторинга — это новые представления для GPU, которые позволяют администраторам легко отслеживать метрики GPU по кластерам. Эта панель предоставляет данные в реальном времени о температуре GPU, использовании памяти и вычислительных мощностях, что позволяет администраторам улучшить время решения проблем с инфраструктурой и операционную эффективность.
Мониторинг температуры — с мониторингом температуры GPU администраторы теперь могут максимизировать производительность GPU, получая ранние предупреждения о перегреве. Это позволяет предпринимать проактивные меры для предотвращения снижения производительности и обеспечения оптимальной работы GPU.
2. Скрипты PowerCLI
Была представлена коллекция из четырёх мощных настраиваемых скриптов PowerCLI, предназначенных для повышения эффективности развёртывания и минимизации ручных усилий для администраторов. Эти скрипты служат ценными инструментами для автоматизации развёртывания необходимой инфраструктуры при внедрении рабочих нагрузок AI в среде VCF. Давайте рассмотрим детали.
Развертывание домена рабочих нагрузок VCF - этот скрипт размещает хосты ESXi в SDDC Manager и разворачивает домен рабочих нагрузок VCF. Этот домен служит основой для настройки VMware Private AI Foundation с NVIDIA для развёртывания рабочих нагрузок AI/ML.
Конфигурация хостов ESXi - используя возможности VMware vSphere Lifecycle Manager, этот скрипт упрощает конфигурацию хостов ESXi, плавно устанавливая компоненты программного обеспечения NVIDIA, входящие в состав NVIDIA AI Enterprise, такие как драйвер NVIDIA vGPU и сервис управления GPU NVIDIA.
Развертывание кластера NSX Edge - этот скрипт облегчает развертывание кластера NSX Edge в домене рабочих нагрузок VCF, обеспечивая внешнюю сетевую связность для рабочих нагрузок AI/ML.
Конфигурация кластера Supervisor и библиотеки содержимого образов ВМ глубокого обучения - этот сценарий настраивает кластер Supervisor в домене рабочих нагрузок VCF. Также он создаёт новую библиотеку содержимого образов VM для глубокого обучения, позволяя пользователям легко развертывать рабочие нагрузки ИИ/ML с предварительно настроенными средами выполнения.
Больше технических деталей о возможностях этого релизы вы можете узнать здесь и здесь.
В современном быстро развивающемся цифровом ландшафте организациям необходимо при релизовывать инициативы по модернизации инфраструктуры, чтобы оставаться актуальными. Новая волна приложений с поддержкой искусственного интеллекта обещает значительно увеличить производительность работников и ускорить экономическое развитие на глобальном уровне, подобно тому как революция мобильных приложений трансформировала бизнес и технологии на протяжении многих лет. Цель компаний Broadcom и VMware состоит в том, чтобы сделать эту мощную и новую технологию более доступной, надежной и доступной по цене. Однако управление разнообразными технологиями, преодоление человеческого сопротивления изменениям и обеспечение прибыльности могут стать сложными препятствиями для любой комплексной ИТ-стратегии.
В связи с объявлением о начальной доступности VMware Private AI Foundation с NVIDIA, в компании Broadcom рады объявить о новой возможности Private AI Automation Services, работающей на базе решения VMware Aria Automation. С помощью служб Private AI Automation Services, встроенных в VMware Cloud Foundation, клиенты могут автоматизировать настройку и предоставление частных AI-услуг и аллокацию машин с поддержкой GPU для ML-нагрузок.
Существует растущая потребность предприятий в решениях для AI, но их реализация может быть сложной и затратной по времени. Чтобы удовлетворить эту потребность, новая интеграция "из коробки" VMware Private AI Foundation с NVIDIA позволит организациям предоставлять возможности автоматизации на базе платформы VMware Cloud Foundation. Интеграция будет сопровождаться новым мастером настройки каталога, который обеспечит быстрый старт, автоматическую настройку частных AI-услуг и самостоятельное предоставление машин с поддержкой GPU, включая ML-нагрузки и TKG GPU на базе кластеров Kubernetes.
Платформа VMware Cloud Foundation (VCF) представляет собой комплексное решение для частной облачной инфраструктуры, которое обеспечивает всеобъемлющую, безопасную и масштабируемую платформу для создания и эксплуатации генеративных AI-нагрузок. Оно предоставляет организациям гибкость, адаптивность и масштабируемость для удовлетворения их меняющихся бизнес-потребностей. С помощью VMware Cloud Foundation ИТ-администраторы могут управлять дорогостоящими и востребованными ресурсами, такими как GPU, с помощью политик использования, шаблонов и ролей пользователей.
Это позволяет членам команд более эффективно использовать инфраструктурные услуги для своих AI/ML-проектов, в то время как ИТ-администраторы обеспечивают оптимальное и безопасное использование ресурсов. Время развертывания AI-инфраструктуры будет сокращено за счет использования Supervisor VM и сервисов TKG в рамках пространства имен супервизора и предоставления через интерфейс потребления облака.
Этот интерфейс теперь доступен локально для клиентов VMware Cloud Foundation через Aria Automation, позволяя им использовать преимущества VMware Private AI Foundation with NVIDIA. Кроме того, Cloud Consumption Interface предлагает простое и безопасное самостоятельное потребление всех Kubernetes-ориентированных desired state IaaS API, доступных на платформе vSphere. Это позволяет предприятиям легко внедрять опыт DevOps и разрабатывать приложения с большей гибкостью, адаптивностью и современными методами в среде vSphere, сохраняя контроль над своей инфраструктурой.
VMware Cloud Foundation помогает клиентам интегрировать гибкость и контроль, необходимые для поддержки нового поколения приложений с AI, что значительно увеличивает производительность работников, способствует трансформации основных бизнес-функций и оказывает положительное экономическое воздействие.
Частные AI-среды VMware служат отличной основой для нового класса приложений на основе AI, что облегчает использование приватных, но широко распределенных данных. Кроме того, возможности Automation Services обеспечивают более быстрый выход на рынок за счет ускоренной итерации изменений AI/ML-инфраструктуры, управляемой через шаблоны. Они также удобны в использовании за счет сокращения времени доступа к средам разработки с поддержкой GPU через каталоги самообслуживания. Кроме того, они дают разработчикам и командам DevOps подход, соответствующий Kubernetes (desired state), для управления изменениями Day-2. Наконец, они помогут снизить затраты на дорогостоящие ресурсы GPU за счет улучшенного управления и использования мощностей AI/ML-инфраструктуры с встроенными политиками и управлением через опции самообслуживания.
Подход Private AI становится популярным, потому что он удовлетворяет возникающие потребности бизнеса в использовании AI, соблюдая строгие стандарты управления данными и конфиденциальности. Открытые модели GenAI могут представлять потенциальные риски, такие как проблемы конфиденциальности, что заставляет организации быть все более осторожными. Частный AI предлагает убедительную альтернативу, позволяя предприятиям запускать модели AI рядом с источником данных, повышая безопасность и соответствие требованиям. VMware Private AI прокладывает путь к новой парадигме, где трансформационный потенциал AI реализуется без ущерба для конфиденциальности данных клиентов и собственных корпоративных данных. Это экономически выгодное решение станет более важным в 2024 году, поскольку организации сталкиваются с растущими регуляторными препятствиями.
Ожидается, что Automation Services для VMware Private AI
станут доступны во втором фискальном квартале Broadcom.
Команда VMware Cloud объявила о публичной доступности платформы VMware Cloud Foundation 5.1.1, поддерживающей первоначальный доступ (initial availability, IA) к инфраструктуре VMware Private AI Foundation with NVIDIA в дополнение к новой модели лицензирования решений VCF, что является первым этапом многоэтапной программы по предоставлению полного стека VCF как единого продукта. Ниже представлен обзор этих важных новых возможностей VCF 5.1.1, а также дополнительные ресурсы и ссылки.
Спецификация версий компонентов VMware Cloud Foundation 5.1.1:
VMware Private AI Foundation with NVIDIA
Как было объявлено на конференции GTC AI Conference 2024, Broadcom предоставила первоначальный доступ (initial availability) к VMware Private AI Foundation with NVIDIA в качестве продвинутого аддона к VMware Cloud Foundation. VMware Private AI Foundation открывает новую эру решений инфраструктуры, поддерживаемых VMware Cloud Foundation для широкого спектра случаев использования генеративного AI. Читайте больше о решениях VMware Cloud Foundation для AI и машинного обучения здесь.
VMware Cloud Foundation является основной инфраструктурной платформой для VMware Private AI Foundation with NVIDIA, предоставляющей современное частное облако, которое позволяет организациям динамически масштабировать рабочие нагрузки GenAI по требованию. VMware Cloud Foundation предлагает автоматизированный процесс самообслуживания в облаке, который ускоряет продуктивность для разработчиков, аналитиков и ученых, обеспечивая при этом комплексную безопасность и устойчивость для защиты и восстановления самой чувствительной интеллектуальной собственности организации.
VMware Cloud Foundation решает многие проблемы, возникающие при развертывании инфраструктуры для поддержки рабочих нагрузок GenAI, за счет архитектуры платформы с полным программно-определяемым стеком, объединяя лучшие в своем классе ресурсы GPU, тесно интегрированные с вычислениями, хранением данных, сетями, безопасностью и управлением.
В VMware Cloud Foundation 5.1.1 существуют хорошо задокументированные рабочие процессы в SDDC Manager для настройки и конфигурации домена рабочих нагрузок Private AI. Также имеется мастер настройки каталога автоматизации VCF, который упрощает конфигурацию этих систем. Зв счет интеграции последних релизов Aria с VMware Cloud Foundation 5.1.1, появляются новые возможности управления, которые можно использовать в решениях Aria Operations и Aria Automation.
Aria Operations включает новые свойства и метрики мониторинга GPU, предоставляющие метрики на уровне кластера и хоста для управления здоровьем и использованием ресурсов GPU. Aria Automation предоставляет новые сервисы автоматизации для VMware Private AI, предлагая модель развертывания частного облака самообслуживания, которая позволяет разработчикам и аналитикам настраивать и перестраивать блоки инфраструктуры для поддержки широкого спектра вариантов использования. Эта новая возможность повышает не только производительность, но и эффективность этих решений на основе GPU, снижая общую стоимость владения (TCO). Гибкость, предлагаемая этой архитектурой, позволяет администраторам облака использовать различные домены рабочих нагрузок, каждый из которых может быть настроен для поддержки конкретных типов виртуальных машин, оптимизируя производительность рабочих нагрузок и использование ресурсов GPU.
Поддержка новой модели лицензирования VMware Cloud Foundation
Для дальнейшего упрощения развертывания, VMware Cloud Foundation 5.1.1 предлагает опцию развертывания единого лицензионного ключа решения, которая теперь включает 60-дневный пробный период. Дополнительные продукты и аддоны к VMware Cloud Foundation теперь также могут быть подключены на основе единого ключа (отметим, что лицензия vSAN на TiB является исключением на данный момент и все еще должна применяться отдельно). Поддержка отдельных компонентных лицензионных ключей продолжается, но новая функция единого ключа должна упростить лицензирование решений на базе развертываний VMware Cloud Foundation.
VMware Cloud Foundation 5.1.1 доступен для загрузки и развертывания уже сейчас. Доступ к VMware Private AI Foundation with NVIDIA можно запросить здесь.
На конференции Explore 2023 компания VMware объявила о новой инициативе в области поддержки систем генеративного AI - VMware Private AI. Сейчас, когда технологии генеративного AI выходят на первый план, особенно важно организовать инфраструктуру для них - то есть подготовить программное и аппаратное обеспечение таким образом, чтобы расходовать ресурсы, необходимые для AI и ML, наиболее эффективно, так как уже сейчас в сфере Corporate AI требуются совершенно другие мощности, чтобы обслуживать эти задачи.
Генеративный искусственный интеллект (Gen AI) - одно из важнейших восходящих направлений, которые изменят ландшафт компаний в течение следующих 5-10 лет. В основе этой волны инноваций находятся большие языковые модели (LLM), обрабатывающие обширные и разнообразные наборы данных. LLM позволяют людям взаимодействовать с моделями искусственного интеллекта через естественный язык как в текстовой форме, так и через речь или изображения.
Инвестиции и активность в области исследований и разработок LLM заметно возросли, что привело к обновлению текущих моделей и выпуску новых, таких как Gemini (ранее Bard), Llama 2, PaLM 2, DALL-E и другие. Некоторые из них являются открытыми для общественности, в то время как другие являются собственностью компаний, таких как Google, Meta и OpenAI. В ближайшие несколько лет ценность GenAI будет определяться доработкой и настройкой моделей, адаптированных к конкретным областям бизнеса и отраслям. Еще одним важным развитием в использовании LLM является Retrieval Augmented Generation (RAG), при котором LLM привязываются к большим и разнообразным наборам данных, чтобы предприятия могли взаимодействовать с LLM по вопросам данных.
VMware предоставляет программное обеспечение, которое модернизирует, оптимизирует и защищает рабочие нагрузки самых сложных организаций в области обработки данных, на всех облачных платформах и в любом приложении. Платформа VMware Cloud Foundation помогает предприятиям внедрять инновации и трансформировать свой бизнес, а также развертывать широкий спектр приложений и услуг искусственного интеллекта. VMware Cloud Foundation обеспечивает единый платформенный подход к управлению всеми рабочими нагрузками, включая виртуальные машины, контейнеры и технологии искусственного интеллекта, через среду самообслуживания и автоматизированного ИТ-окружения.
На днях, на конференции NVIDIA GTC, VMware объявила о начальной доступности (Initial Availability) решения VMware Private AI Foundation with NVIDIA.
VMware Private AI Foundation with NVIDIA
VMware/Broadcom и NVIDIA стремятся раскрыть потенциал Gen AI и максимально использовать производительность совместной платформы.
Построенный и запущенный на ведущей в отрасли платформе для частного облака, VMware Cloud Foundation, VMware Private AI Foundation with NVIDIA включает в себя новые микросервисы NVIDIA NIM, модели искусственного интеллекта от NVIDIA и других участников сообщества (таких как Hugging Face), а также инструменты и фреймворки искусственного интеллекта от NVIDIA, доступные с лицензиями NVIDIA AI Enterprise.
Эта интегрированная платформа GenAI позволяет предприятиям запускать рабочие процессы RAG, внедрять и настраивать модели LLM и выполнять эти нагрузки в их центрах обработки данных, решая проблемы конфиденциальности, выбора, стоимости, производительности и комплаенса. Она упрощает развертывание GenAI для предприятий, предлагая интуитивный инструмент автоматизации, образы глубокого обучения виртуальных машин, векторную базу данных и возможности мониторинга GPU. Эта платформа представляет собой дополнительный SKU в дополнение к VMware Cloud Foundation. Обратите внимание, что лицензии NVIDIA AI Enterprise должны быть приобретены отдельно у NVIDIA.
Ключевые преимущества
Давайте разберем ключевые преимущества VMware Private AI Foundation с участием NVIDIA:
Обеспечение конфиденциальности, безопасности и соблюдения нормативов моделей искусственного интеллекта
VMware Private AI Foundation with NVIDIA предлагает архитектурный подход к обслуживанию искусственного интеллекта, обеспечивающий конфиденциальность, безопасность и контроль над корпоративными данными, а также более интегрированную систему безопасности и управления.
VMware Cloud Foundation обеспечивает продвинутые функции безопасности, такие как защита загрузки, виртуальный TPM, шифрование виртуальных машин и многое другое. В рамках услуг NVIDIA AI Enterprise включено программное обеспечение управления для использования рабочей нагрузки и инфраструктуры для масштабирования разработки и развертывания моделей искусственного интеллекта. Стек программного обеспечения для искусственного интеллекта включает более 4500 пакетов программного обеспечения с открытым исходным кодом, включая программное обеспечение сторонних производителей и программное обеспечение NVIDIA.
Часть услуг NVIDIA AI Enterprise включает патчи для критических и опасных уязвимостей (CVE) с производственными и долгосрочными ветвями поддержки и обеспечения совместимости API по всему стеку. VMware Private AI Foundation with NVIDIA обеспечивает средства развертывания, которые предоставляют предприятиям контроль над множеством регуляторных задач с минимальными изменениями в их текущей среде.
Ускоренная производительность моделей GenAI независимо от выбранных LLM
Broadcom и NVIDIA предоставляют программные и аппаратные средства для достижения максимальной производительности моделей GenAI. Эти интегрированные возможности, встроенные в платформу VMware Cloud Foundation, включают мониторинг GPU, горячую миграцию и балансировку нагрузки, мгновенное клонирование (возможность развертывания кластеров с несколькими узлами с предварительной загрузкой моделей за несколько секунд), виртуализацию и пулы GPU, а также масштабирование ввода/вывода GPU с помощью NVIDIA NVLink и NVIDIA NVSwitch.
Недавнее исследование сравнивало рабочие нагрузки искусственного интеллекта на платформе VMware + NVIDIA AI-Ready Enterprise с bare metal. Результаты показывают производительность, сравнимую или даже лучшую, чем на bare metal. Таким образом, размещение рабочих нагрузок искусственного интеллекта на виртуализированных решениях сохраняет производительность и приносит преимущества виртуализации, такие как упрощенное управление и улучшенная безопасность. NVIDIA NIM позволяет предприятиям выполнять операции на широком диапазоне оптимизированных LLM, от моделей NVIDIA до моделей сообщества, таких как Llama-2, и до LLM с открытым исходным кодом, таких как Hugging Face, с высокой производительностью.
Упрощение развертывания GenAI и оптимизация затрат
VMware Private AI Foundation with NVIDIA помогает предприятиям упростить развертывание и достичь экономичного решения для своих моделей GenAI. Он предлагает такие возможности, как векторная база данных для выполнения рабочих процессов RAG, виртуальные машины глубокого обучения и мастер автоматического запуска для упрощения развертывания. Эта платформа реализует единые инструменты и процессы управления, обеспечивая значительное снижение затрат. Этот подход позволяет виртуализировать и использовать общие ресурсы инфраструктуры, такие как GPU, CPU, память и сети, что приводит к существенному снижению затрат, особенно для случаев использования, где полноценные GPU могут быть необязательными.
Архитектура
VMware Cloud Foundation, полноценное решение для частного облачного инфраструктуры, и NVIDIA AI Enterprise, полнофункциональная облачная платформа, образуют основу платформы VMware Private AI Foundation with NVIDIA. Вместе они предоставляют предприятиям возможность запуска частных и безопасных моделей GenAI.
Основные возможности, которые следует выделить:
1. Специальные возможности, разработанные VMware
Давайте подробнее рассмотрим каждую из них.
Шаблоны виртуальных машин для глубокого обучения
Настройка виртуальной машины для глубокого обучения может быть сложным и затратным процессом. Ручное создание может привести к недостатку согласованности и, следовательно, к недостаточной оптимизации в различных средах разработки. VMware Private AI Foundation with NVIDIA предоставляет виртуальные машины для глубокого обучения, которые поставляются предварительно настроенными с необходимыми программными средствами, такими как NVIDIA NGC, библиотеками и драйверами, что освобождает пользователей от необходимости настраивать каждый компонент.
Векторные базы данных для выполнения рабочих процессов RAG
Векторные базы данных стали очень важным компонентом для рабочих процессов RAG. Они обеспечивают быстрый запрос данных и обновление в реальном времени для улучшения результатов LLM без необходимости повторного обучения этих моделей, что может быть очень затратным и долгим. Они стали стандартом для рабочих процессов GenAI и RAG. VMware применяет векторные базы данных, используя pgvector на PostgreSQL. Эта возможность управляется с помощью автоматизации в рамках инфраструктуры служб данных в VMware Cloud Foundation. Сервис управления данными упрощает развертывание и управление базами данных с открытым исходным кодом и коммерческими базами данных из одного интерфейса.
Мастер настройки каталога
Создание инфраструктуры для проектов искусственного интеллекта включает несколько сложных шагов. Эти шаги выполняются администраторами, специализирующимися на выборе и развертывании соответствующих классов виртуальных машин, кластеров Kubernetes, виртуальных графических процессоров (vGPU) и программного обеспечения для искусственного интеллекта/машинного обучения, такого как контейнеры в каталоге NGC.
В большинстве предприятий исследователи данных и DevOps тратят значительное количество времени на сборку необходимой им инфраструктуры для разработки и производства моделей искусственного интеллекта/машинного обучения. Полученная инфраструктура может не соответствовать требованиям безопасности и масштабируемости для разных команд и проектов. Даже при оптимизированных развертываниях инфраструктуры для искусственного интеллекта/машинного обучения исследователи данных и DevOps могут тратить значительное количество времени на ожидание, когда администраторы создадут, составят и предоставят необходимые объекты каталога инфраструктуры для задач искусственного интеллекта/машинного обучения.
Для решения этих проблем VMware Cloud Foundation представляет мастер настройки каталога (Catalog Setup Wizard) - новую возможность Private AI Automation Services. На начальном этапе LOB-администраторы могут эффективно создавать, составлять и предоставлять оптимизированные объекты каталога инфраструктуры искусственного интеллекта через портал самообслуживания VMware Cloud Foundation. После публикации DevOps исследователи данных могут легко получить доступ к элементам каталога машинного обучения и развернуть их с минимальными усилиями. Мастер настройки каталога снижает ручную нагрузку для администраторов и сокращает время ожидания, упрощая процесс создания масштабируемой инфраструктуры.
Мониторинг GPU
Получая видимость использования и метрик производительности GPU, организации могут принимать обоснованные решения для оптимизации производительности, обеспечения надежности и управления затратами в средах с ускорением на GPU. С запуском VMware Private Foundation with NVIDIA сразу доступны возможности мониторинга GPU в VMware Cloud Foundation. Это дает администраторам дэшборды с информацией об использовании GPU в рамках кластеров и хостов, в дополнение к существующим метрикам мониторинга.
2. Возможности NVIDIA AI Enterprise
NVIDIA NIM
NVIDIA NIM - это набор простых в использовании микросервисов, разработанных для ускорения развертывания GenAI на предприятиях. Этот универсальный микросервис поддерживает модели NVIDIA AI Foundation Models - широкий спектр моделей - от ведущих моделей сообщества до моделей, созданных NVIDIA, а также индивидуальные пользовательские модели искусственного интеллекта, оптимизированные для стека NVIDIA. Созданный на основе фундаментальных компонентов NVIDIA Triton Inference Server, NVIDIA TensorRT, TensorRT-LLM и PyTorch, NVIDIA NIM предназначен для обеспечения масштабируемых и гибких моделей AI.
NVIDIA Nemo Retriever
NVIDIA NeMo Retriever - это часть платформы NVIDIA NeMo, которая представляет собой набор микросервисов NVIDIA CUDA-X GenAI, позволяющих организациям без проблем подключать пользовательские модели к разнообразным бизнес-данным и предоставлять высокоточные ответы. NeMo Retriever обеспечивает поиск информации самого высокого уровня с минимальной задержкой, максимальной пропускной способностью и максимальной конфиденциальностью данных, позволяя организациям эффективно использовать свои данные и генерировать бизнес-инсайты в реальном времени. NeMo Retriever дополняет приложения GenAI расширенными возможностями RAG, которые могут быть подключены к бизнес-данным в любом месте их хранения.
NVIDIA RAG LLM Operator
Оператор NVIDIA RAG LLM упрощает запуск приложений RAG в производственную среду. Он оптимизирует развертывание конвейеров RAG, разработанных с использованием примеров рабочих процессов искусственного интеллекта NVIDIA, в производственной среде без переписывания кода.
NVIDIA GPU Operator
Оператор NVIDIA GPU автоматизирует управление жизненным циклом программного обеспечения, необходимого для использования GPU с Kubernetes. Он обеспечивает расширенные функциональные возможности, включая повышенную производительность GPU, эффективное использование ресурсов и телеметрию. Оператор GPU позволяет организациям сосредотачиваться на создании приложений, а не на управлении инфраструктурой Kubernetes.
Поддержка ведущих производителей серверного оборудования
Платформа от VMware и NVIDIA поддерживается ведущими производителями серверного оборудования, такими как Dell, HPE и Lenovo.
Более подробно о VMware Private AI Foundation with NVIDIA можно узнать тут и тут.
Этой осенью VMware объявила о старте бета-программы по внедрению функциональности AI в решение VMware Tanzu Application Service, которая будет запущена в самое ближайшее время. Клиенты, заинтересованные в запуске частных AI-услуг в своей среде Tanzu Application Service, могут зарегистрироваться в этой бета-программе, чтобы получить ранний доступ к тому, что VMware строит в экосистеме Tanzu Application Service, используя технологии Private AI.
VMware стремится расширить общую функциональность платформы Tanzu Application Service по мере развития бета-программы, чтобы понять потребности клиентов в частных системах искусственного интеллекта.
Как будет выглядеть AI, работающий на Tanzu Application Service? Некоторые из этих возможностей могут включать:
Приложения в стиле генеративного AI, работающие в основе Tanzu Application Service
Сервисы крупномасштабной языковой модели (LLM), развернутые с помощью BOSH, которые будут размещены в ваших средах Tanzu Application Service
Частный доступ к этим LLM с использованием существующего сетевого пространства Tanzu Application Service в ваших центрах обработки данных или виртуальных частных облаках
Возможность использовать интерфейс cf push для создания и запуска частных AI-приложений
Расширение рынка Tanzu Application Service с предложениями, позволяющими прямое связывание различных сервисов с LLM
Исследование путей развертывания частных AI-решений Tanzu Application Service на основе VMware Private AI Foundations
Вот предварительный обзор того, как частные AI-решения будут работать в Tanzu Application Service с использованием LLM, размещенных с помощью BOSH:
Не так давно мы подробно рассказывали об инициативе Private AI компании VMware, которая позволит создать надежную инфраструктуру для корпоративных систем искусственного интеллекта. Сегодня мы расскажем о новых инициативах VMware и Intel в этой сфере.
Поскольку AI обеспечивает огромный рост производительности и позволяет создавать новые возможности, многие основные функции в типичном бизнесе будут трансформироваться, включая продажи, маркетинг, разработку программного обеспечения, операции с клиентами и обработку документов. Компания McKinsey прогнозирует, что влияние генеративного AI на производительность может добавить около $4.4 триллиона ежегодно к мировой экономике.
Но в основе этого остается конфиденциальность данных предприятий. Поэтому в августе 2023 года на мероприятии VMware Explore в Лас-Вегасе VMware объявила о запуске VMware Private AI и VMware Private AI Foundation с NVIDIA. Ну а на конференции Explore Europe было объявлено о дальнейшем расширении экосистемы VMware Private AI с двумя ключевыми партнерами.
VMware Private AI с Intel дает возможность использования AI для всех организаций
VMware и Intel сотрудничают более 20 лет для обеспечения возможностей следующего поколения - от центров обработки данных до облаков с самым широким портфолио надежных корпоративных решений, позволяющих компаниям двигаться быстрее, внедрять больше инноваций и работать эффективнее.
VMware и Intel помогут предприятиям создавать и развёртывать частные и безопасные модели AI, работающие на основе архитектуры VMware Cloud Foundation, и повысить производительность AI, используя программный пакет Intel AI software suite, процессоры Intel Xeon Scalable четвёртого поколения со встроенными ускорителями и графическими процессорами Intel Max Series.
Давайте рассмотрим, какую ценность предприятия могут ожидать от этого партнёрства.
Обеспечение конфиденциальности и безопасности для моделей AI: архитектурный подход VMware Private AI для AI-сервисов обеспечивает конфиденциальность и контроль корпоративных данных, а также интегрированную безопасность и управление. Это партнёрство поможет предприятиям создать и развернуть частные и безопасные модели AI с интегрированными возможностями безопасности в VCF и его компонентах.
Повышение производительности AI: достижение высокой производительности моделей AI и LLM с использованием интегрированных возможностей, встроенных в VCF, процессоры Intel, аппаратные ускорители и оптимизированное программное обеспечение. Например, vSphere, один из основных компонентов VCF, включает планировщик Distributed Resources Scheduler (DRS), который улучшает управление рабочими нагрузками AI, группируя хосты в кластеры ресурсов для разных приложений и обеспечивая доступ ВМ к необходимому количеству вычислительных ресурсов, предотвращая узкие места на уровне ресурсов и оптимизируя их использование.
Повсеместный доступ к AI: VMware и Intel предоставляют предприятиям полностью проверенный стек ИИ на уже развёрнутых кластерах. Этот стек позволяет предприятиям проводить подготовку данных, машинное обучение, тонкую настройку и оптимизацию вывода, используя процессоры Intel, аппаратные ускорители, программный пакет Intel для AI и VCF в вашей локальной среде.
Архитектура решения
VMware Private AI на базе Intel поддерживает как генеративный AI, так и классические случаи использования AI/ML. Он использует мощность VMware Cloud Foundation и программного пакета Intel для AI, процессоров и аппаратных ускорителей. Эта архитектурная экосистема объединяет VMware, Intel, поставщиков ML Ops (cnvrg.io, Domino Data Labs, DKube, Kubeflow и т.д.), крупных производителей серверов OEM (таких как Dell Technologies, Hewlett Packard Enterprise и Lenovo), и глобальных системных интеграторов, таких как HCL, Kyndryl и Wipro.
Варианты использования
VMware Private AI и сотрудничество с Intel позволяют предприятиям использовать несколько сценариев, безопасно внедряя классические модели AI/ML и большие языковые модели, тонкую настройку и развертывание их в частной корпоративной среде. Вот описание основных случаев использования.
Генерация кода: предприятия могут использовать свои модели без риска потери интеллектуальной собственности или данных и ускорить работу разработчиков, включив генерацию кода.
Опыт решения проблем в контактных центрах: предприятия могут настраивать модели на основе своей внутренней документации и статей базы знаний, включая конфиденциальные данные поддержки, и, в свою очередь, обеспечить более эффективное обслуживание клиентов и поддержку с существенным сокращением человеческого взаимодействия в инцидентах поддержки/обслуживания.
Классическое машинное обучение: классические модели ML используются для различных реальных приложений в таких отраслях, как финансовые услуги, здравоохранение и Life Sciences, розничная торговля, исследования и производство. Популярные случаи использования ML включают персонализированный маркетинг, визуальный контроль качества в производстве, персонализированную медицину и прогнозирование спроса в розничной торговле.
Рекомендательные движки: предприятия могут улучшить взаимодействие с потребителями, предлагая или рекомендуя дополнительные продукты. Это может основываться на различных критериях, включая предыдущие покупки, историю поиска, демографическую информацию и другие факторы.
VMware Private AI с IBM обеспечивает доступ к WatsonX в локальных средах
IBM и VMware работают над VMware Private AI, чтобы позволить предприятиям получить доступ к платформе IBM WatsonX в частных, локальных средах и гибридном облаке для безопасного обучения и тонкой настройки своих моделей с помощью платформы WatsonX. Стратегическое партнерство между IBM и VMware направлено на то, чтобы обеспечить клиентам возможность легко перейти на гибридное облако и модернизировать их критически важные рабочие нагрузки. Теперь, имея возможность выбора времени, места и способа интеграции технологий GenAI с VMware Cloud Foundation, предприятия смогут быстро обучать и развертывать индивидуальные возможности AI в рамках всего предприятия, сохраняя при этом полный контроль и соответствие требованиям к их данным. Благодаря этому партнерству в области AI между VMware и IBM, предприятия получают мощное решение, использующее лучшие инновации от локальных решений VMware в едином стеке, чтобы обеспечить унифицированную среду, интегрированную с данными и возможностями AI, предоставляемыми технологией партнера IBM Cloud.
Получите частные и безопасные модели с VMware Private AI: конфиденциальность и безопасность имеют первостепенное значение для предприятий. Теперь предприятия могут создавать свои частные и безопасные модели AI с VMware Private AI с IBM, используя несколько интегрированных возможностей конфиденциальности, безопасности и микросегментации в VCF.
Развертывание моделей AI/ML в локальной среде и в облаке: это партнерство позволяет предприятиям обучать, проверять, настраивать и развертывать частные и безопасные модели AI/ML как в локальной среде, так и в облаке IBM Cloud.
Выбор между открытыми или проприетарными моделями IBM: это партнерство позволяет предприятиям выбирать большие языковые модели (LLM), предоставляя доступ к открытым моделям от Hugging Face, выбранным IBM, моделям сторонних производителей и серии обученных IBM фундаментальных моделей.
Вот несколько примеров поддерживаемых моделей, доступных на watsonx.ai:
Открытые модели: Llama 2 (70b)
Модели сторонних производителей: StarCoder (15.5b)
Проприетарные модели IBM: Granite (13b)
Архитектура решения
Эта полноценная архитектура, построенная на основе VMware Cloud Foundation, использует Red Hat OpenShift и сочетает в себе возможности платформы IBM WatsonX для Gen AI и классических AI/ML-нагрузок с Enterprise-уровнем безопасности. С помощью этой архитектуры предприятия могут использовать watsonx.ai для доступа к открытым моделям IBM, выбранным из Hugging Face, а также к другим моделям сторонних производителей и серии обученных IBM фундаментальных моделей для поддержки вариантов использования GenAI и для обучения, проверки, настройки и развертывания классических моделей AI/ML.
Варианты использования
VMware Private AI с IBM может обеспечить несколько сценариев использования для предприятий, безопасно активируя настройку больших языковых моделей, тонкую настройку и развертывание их в частной корпоративной среде. В области генерации кода акцент сделан на ускорении продуктивности разработчиков с учетом критически важных вопросов конфиденциальности и интеллектуальной собственности. Кроме того, VMware Private AI в сотрудничестве с IBM представляет значительную возможность улучшить взаимодействие в контактных центрах. Это партнерство обещает улучшение качества контента и обратной связи для клиентов, что приводит к более точным ответам и, в целом, улучшению клиентского опыта. Это партнерство может значительно упростить ИТ-операции, автоматизировав задачи, такие как управление инцидентами, отчетность, управление тикетами и мониторинг, в конечном итоге экономя время и усилия агентов ИТ-операций. Наконец, продвинутые возможности поиска информации, возникшие благодаря этому сотрудничеству, могут повысить продуктивность сотрудников, оптимизируя поиск документов и исследование политик, способствуя более продуктивной рабочей среде.
IBM Consulting предоставляет клиентам экспертизу в решениях, специфичных для VMware и генеративного AI
Ранее в этом году IBM Consulting создала Центр компетенции по генеративному AI и теперь имеет более 1000 консультантов со специализированными знаниями в области генеративного AI, которые работают с глобальными клиентами, чтобы повысить производительность в ИТ-операциях и основных бизнес-процессах, таких как кадровые или маркетинговые, улучшить клиентский опыт и создать новые бизнес-модели.
Это, в сочетании с экспертизой IBM, специфичной для VMware, и сервисными возможностями, поможет ускорить бизнес-трансформации клиентов с использованием корпоративного AI на архитектуре VMware Private AI.
Кроме того, для клиентов, желающих модернизировать и трансформировать свои рабочие нагрузки, IBM Consulting планирует интегрировать услуги IBM WatsonX и VMware Private AI в свой проприетарный IBM Consulting Cloud Accelerator, чтобы помочь ускорить процесс трансформации инфраструктур в облака. После релиза эта интеграция поможет с процессами reverse engineering и генерацией кода, а также с управлением операциями Day-2 и последующими для бесперебойного предоставления услуг управления гибридным облаком от IBM Consulting.