Современные задачи искусственного интеллекта (AI) и машинного обучения (ML) требуют высокопроизводительных решений при минимизации затрат на инфраструктуру, поскольку оборудование для таких нагрузок стоит дорого.
Использование графических процессоров NVIDIA в сочетании с технологией NVIDIA AI Enterprise и платформой VMware Cloud Foundation (VCF) позволяет компаниям достигать отличной производительности, при этом используя возможности виртуализации. Это сочетание помогает эффективно управлять нагрузками AI/ML и одновременно снижать расходы на аппаратное обеспечение.
Преимущества виртуализации GPU: снижение затрат и повышение производительности
Одна из ключевых особенностей VMware Cloud Foundation заключается в возможности использования виртуализированных графических процессоров (vGPU). Эта технология позволяет разделить физический GPU на несколько виртуальных сегментов с надежной изоляцией, что обеспечивает параллельную работу нескольких задач на одном физическом ресурсе без взаимного влияния. Например, технологии NVIDIA Multi-Instance GPU (MIG) позволяют разделить GPU на несколько независимых экземпляров, каждый из которых можно использовать для разных рабочих нагрузок или пользователей.
Эта модель виртуализации существенно повышает эффективность использования ресурсов, позволяя сократить совокупную стоимость владения (TCO) за счет консолидации большего числа виртуальных машин или других рабочих нагрузок на одном хосте. При этом виртуальная инфраструктура демонстрирует производительность, близкую к уровню "голого железа" (bare metal), что является важным показателем для бизнеса. И об этом мы расскажем ниже.
Обзор графических процессоров NVIDIA: H100, A100 и L4
В основе рассматриваемого решения лежат мощные графические процессоры NVIDIA, такие как H100, A100 и L4. Эти GPU специально разработаны для обработки больших объемов данных и выполнения сложных вычислений, связанных с машинным обучением и искусственным интеллектом.
NVIDIA H100 (архитектура названа в честь американского ученого Grace Hopper)
Это самый передовой серийный чип (возможно даже в мире), имеющий 80 миллиардов транзисторов и аппаратный движок для ускорения GPT-трансформеров (Generative Pre-trained Transformer). Этот чип позволяет значительно ускорить обучение и инференс моделей, также H100 поддерживает конфиденциальные вычисления, что делает его идеальным выбором для сценариев с повышенными требованиями к безопасности, таких как федеративное обучение.
Давайте посмотрим на возможности этого самого продвинутого GPU-чипа:
Спецификация на эту платформу выглядит так:
Этот чип находится вне конкуренции для тяжелых ML-нагрузок, и сегодня мы рассмотрим его применение в виртуальной среде VMware Cloud Foundation на базе гипервизора ESXi в сравнении со сценарием использования на «голом железе» (то есть сервере без системы виртуализации).
NVIDIA A100 (архитектура названа в честь французского физика Ампера)
Данное устройство ориентировано на глубокое обучение и используется для работы с большими данными и сложными нейронными сетями. Благодаря поддержке NVLink и технологии разделения GPU, A100 обеспечивает практически непрерывную работу с минимальными задержками (latency). Как и H100 этот чип активно использует технологию протокола интерконнекта NVLink, что особенно полезно для крупномасштабных задач AI.
Если мы сравним этот чип с H100, то увидим, что A100 несколько попроще (ну и, разумеется, подешевле) своего старшего брата:
NVIDIA L4 (архитектура названа в честь английского математика Ады Лавлейс)
Этот чип сочетает возможности как для графики (что важно также и в десктопных платформах), так и для машинного обучения. Однако в рамках VMware Cloud Foundation L4 используется пользователями преимущественно для ML-задач. Этот GPU обеспечивает высокую производительность при обработке изображений и текстов, что делает его важным элементом для приложений, работающих с мультимедийными данными и AI-инференсом.
Приведем ниже основные характеристики устройств L4 и A100, где вы можете увидеть, что L4 является самой младшей моделью линейки:
Тестирование производительности: близко к bare metal
Одним из ключевых аспектов является сравнение производительности виртуализированных конфигураций с физическими серверами. Тесты на производительность, включая такие задачи, как RetinaNet (обнаружение объектов) и BERT (обработка естественного языка), показали, что виртуализированные среды VCF достигают производительности bare metal. В некоторых случаях виртуализированные решения даже превосходят физические серверы при меньшем количестве выделенных ресурсов, что демонстрирует низкие накладные расходы виртуализации.
Во многих тестах падение в производительности составляет всего 2-8%, но в отдельных случаях виртуализированные системы даже превосходят bare metal на 4%.
Например, в тестах по инференсу на базе пакета MLPerf Inference 4.0 (использование RetinaNet для распознавания объектов, GPT для генерации текста и других бенчмарков) виртуализированные системы показали 95-104% от производительности bare metal, что подтверждает возможность использования виртуализации для самых требовательных AI-задач.
Тестирование производительности чипа H100
Давайте посмотрим на детали. Для тестирования с помощью бенчмарка MLPerf Inference 4.0 в компании VMware использовали следующую тестовую конфигурацию для виртуальной среды и bare metal:
Как мы видим, для виртуальной среды использовалось меньше ресурсов физических процессоров (14%), а также только 12.8% памяти для виртуальной машины, использовавшейся для инференса.
Для тестирования использовались 2 сценария:
Server scenario – это когда все исходные материалы (фото, картинки и т.п.) подаются на хост последовательно, по мере загрузки, в соответствии с заданным распределением.
Offline scenario – когда все материалы уже находятся на сервере и доступны.
Ниже представлены результаты тестирования, которые получили для 5 различных моделей в серверном сценарии (это те самые 95-104% производительности по сравнению с bare metal, о которых мы сказали выше):
Опишем эти бенчмарки:
Retinanet – программа распознавания образов
Bert-99 – NLP-процессор
Gptj-99/ Gptj-99.9 – GPT-модель с 6 миллиардами параметров
Stable-diffusion-xl – text-to-image движок с 2.6 миллиардами параметров
Для офлайн сценария результаты получились даже лучше – и все это за счет использования только части ресурсов сервера!
Здесь использовался еще один бенчмарк 3d-unet, который симулирует работу медицинского ПО для обработки изображений. И он тоже показал отличный результат.
Тестирование производительности чипа L40s
Здесь использовалась следующая тестовая конфигурация оборудования:
Для тестов уже взяли треть мощностей процессоров сервера, но достаточным оказалось 8.5% его памяти.
Для описанных выше тестов результаты вышли несколько скромнее, но, тем не менее, максимальная потеря производительности составляет всего 8% и это, опять-таки, при использовании только части ресурсов оборудования:
Здесь rnnt – это speech-to-text модель, которую также решили протестировать в этих сценариях.
Тестирование производительности чипа A100
В этом случае использовалась следующая аппаратная конфигурация для физической и виртуальной среды (тут уже пришлось использовать две трети процессоров и почти всю память, чтобы результаты радовали):
Результаты, нормализованные к эталонной bare metal производительности, для задачи тренировки модели (не инференса) оказались следующими (учтите, что тут уже чем выше столбик, тем хуже):
Падение производительности в виртуальной среде VCF для двух бенчмарков оказалось в диапазоне 6-8%.
Преимущества виртуализации для AI/ML-задач
Давайте суммаризуем основные преимущества виртуализации при использовании ML-задач с помощью ускорителей NVIDIA:
Экономия затрат: использование части ресурсов физического сервера позволяет запускать больше ВМ и рабочих нагрузок, снижая общие затраты на оборудование.
Изоляция и безопасность: фракционные виртуализированные GPU с изоляцией обеспечивают безопасность данных, что особенно важно в облачных средах с несколькими арендаторами.
Гибкость: VCF дает возможность масштабировать ресурсы в зависимости от потребностей нагрузки. VCF также позволяет динамически распределять ресурсы между ВМ с помощью технологии DRS, предоставляя гибкость в управлении процессорами, памятью и GPU.
Производительность, близкая к bare-metal: даже с накладными расходами виртуализации VCF демонстрирует производительность, близкую к физической инфраструктуре.
Заключение
Интеграция GPU NVIDIA с VMware Cloud Foundation предлагает мощное решение для оптимизации рабочих нагрузок AI/ML, используя при этом не все вычислительные ресурсы, а только необходимую для задачи часть (что доступно только в виртуальной среде). Это сочетание позволяет компаниям достигать максимальной производительности при снижении затрат на инфраструктуру за счет использования только части доступных ресурсов парка серверов. С такими графическими процессорами, как H100, A100 и L4, можно с уверенностью запускать требовательные задачи машинного обучения, одновременно получая все преимущества виртуализации.
Можно сказать, что платформа VMware Cloud Foundation действительно является "золотой серединой" для нагрузок AI/ML, предлагая баланс между производительностью, эффективностью затрат и гибкостью.