В данной статье описывается, как развернуть дома полноценную лабораторию VMware Cloud Foundation (VCF) на одном физическом компьютере. Мы рассмотрим выбор оптимального оборудования, поэтапную установку всех компонентов VCF (включая ESXi, vCenter, NSX, vSAN и SDDC Manager), разберем архитектуру и взаимодействие компонентов, поделимся лучшими практиками...
Благодаря этому, у пользователей появляется ещё больше возможностей использовать подход Private AI для запуска моделей искусственного интеллекта и машинного обучения в непосредственной близости от приватных данных, как локально (on-premises), так и в облаке Azure VMware Solution.
Высокоуровневые компоненты данного решения представлены ниже:
Для получения подробных технических рекомендаций по интеграции Azure Machine Learning (AML) с VMware Cloud Foundation (VCF), пожалуйста, обратитесь к недавно опубликованной архитектуре решения.
Общие клиенты Broadcom и Microsoft признают, что гибридные решения в области искусственного интеллекта, сочетающие преимущества публичного облака и локальной (on-premises) или периферийной (edge) инфраструктуры, являются важнейшей частью их текущих и будущих архитектурных планов. Совместно с Microsoft компания Broadcom упрощает для организаций задачу обеспечения единого входа в Azure для разработчиков и специалистов по данным при планировании сервисов машинного обучения, таких как классификация данных или компьютерное зрение, и при этом дает возможность развертывать их на платформе VCF в любой точке присутствия бизнеса.
Сегодня искусственный интеллект преобразует бизнес во всех отраслях, однако компании сталкиваются с проблемами, связанными со стоимостью, безопасностью данных и масштабируемостью при запуске задач инференса (производительной нагрузки) в публичных облаках. VMware и NVIDIA предлагают альтернативу — платформу VMware Private AI Foundation with NVIDIA, предназначенную для эффективного и безопасного размещения AI-инфраструктуры непосредственно в частном датацентре. В документе "VMware Private AI Foundation with NVIDIA on HGX Servers" подробно рассматривается работа технологии Private AI на серверном оборудовании HGX.
Зачем бизнесу нужна частная инфраструктура AI?
1. Оптимизация использования GPU
На практике графические ускорители (GPU), размещенные в собственных датацентрах, часто используются неэффективно. Они могут простаивать из-за неправильного распределения или чрезмерного резервирования. Платформа VMware Private AI Foundation решает эту проблему, позволяя динамически распределять ресурсы GPU. Это обеспечивает максимальную загрузку графических процессоров и существенное повышение общей эффективности инфраструктуры.
2. Гибкость и удобство для специалистов по AI
Современные сценарии работы с AI требуют высокой скорости и гибкости в работе специалистов по данным. Платформа VMware обеспечивает привычный облачный опыт работы, позволяя командам специалистов быстро разворачивать AI-среды, при этом сохраняя полный контроль инфраструктуры у ИТ-команд.
3. Конфиденциальность и контроль за данными
Публичные облака вызывают беспокойство в вопросах приватности, особенно когда AI-модели обрабатывают конфиденциальные данные. Решение VMware Private AI Foundation гарантирует полную конфиденциальность, соответствие нормативным требованиям и контроль доступа к проприетарным моделям и наборам данных.
4. Знакомый интерфейс управления VMware
Внедрение нового программного обеспечения обычно требует значительных усилий на изучение и адаптацию. Платформа VMware использует уже знакомые инструменты администрирования (vSphere, vCenter, NSX и другие), что существенно сокращает время и затраты на внедрение и эксплуатацию.
Основные компоненты платформы VMware Private AI Foundation с NVIDIA
VMware Cloud Foundation (VCF)
Это интегрированная платформа, объединяющая ключевые продукты VMware:
vSphere для виртуализации серверов.
vSAN для виртуализации хранилищ.
NSX для программного управления сетью.
Aria Suite (бывшая платформа vRealize) для мониторинга и автоматизации управления инфраструктурой.
NVIDIA AI Enterprise
NVIDIA AI Enterprise является важным элементом платформы и включает:
Технологию виртуализации GPU (NVIDIA vGPU C-Series) для совместного использования GPU несколькими виртуальными машинами.
NIM (NVIDIA Infrastructure Manager) для простого управления инфраструктурой GPU.
NeMo Retriever и AI Blueprints для быстрого развёртывания и масштабирования моделей AI и генеративного AI.
NVIDIA HGX Servers
Серверы HGX специально разработаны NVIDIA для интенсивных задач AI и инференса. Каждый сервер оснащён 8 ускорителями NVIDIA H100 или H200, которые взаимосвязаны через высокоскоростные интерфейсы NVSwitch и NVLink, обеспечивающие высокую пропускную способность и минимальные задержки.
Высокоскоростная сеть
Сетевое взаимодействие в кластере обеспечивается Ethernet-коммутаторами NVIDIA Spectrum-X, которые предлагают скорость передачи данных до 100 GbE, обеспечивая необходимую производительность для требовательных к данным задач AI.
Референсная архитектура для задач инференса
Референсная архитектура предлагает точные рекомендации по конфигурации аппаратного и программного обеспечения:
Физическая архитектура
Серверы инференса: от 4 до 16 серверов NVIDIA HGX с GPU H100/H200.
Сетевая инфраструктура: 100 GbE для рабочих нагрузок инференса, 25 GbE для управления и хранения данных.
Управляющие серверы: 4 узла, совместимые с VMware vSAN, для запуска сервисов VMware.
Виртуальная архитектура
Домен управления: vCenter, SDDC Manager, NSX, Aria Suite для управления облачной инфраструктурой.
Домен рабочих нагрузок: виртуальные машины с GPU и Supervisor Clusters для запуска Kubernetes-кластеров и виртуальных машин с глубоким обучением (DLVM).
Векторные базы данных: PostgreSQL с расширением pgVector для поддержки Retrieval-Augmented Generation (RAG) в генеративном AI.
Производительность и валидация
VMware и NVIDIA протестировали платформу с помощью набора тестов GenAI-Perf, сравнив производительность виртуализированных и bare-metal сред. Решение VMware Private AI Foundation продемонстрировало высокую пропускную способность и низкую задержку, соответствующие или превосходящие показатели не виртуализированных решений.
Почему компании выбирают VMware Private AI Foundation с NVIDIA?
Эффективное использование GPU: максимизация загрузки GPU, что экономит ресурсы.
Высокий уровень безопасности и защиты данных: конфиденциальность данных и контроль над AI-моделями.
Операционная эффективность: использование привычных инструментов VMware сокращает затраты на внедрение и управление.
Масштабируемость и перспективность: возможность роста и адаптации к новым задачам в области AI.
Итоговые выводы
Платформа VMware Private AI Foundation с NVIDIA является комплексным решением для компаний, стремящихся эффективно и безопасно реализовывать задачи искусственного интеллекта в частных дата-центрах. Она обеспечивает высокую производительность, гибкость и конфиденциальность данных, являясь оптимальным решением для организаций, которым критично важно сохранять контроль над AI-инфраструктурой, не жертвуя при этом удобством и масштабируемостью.
Дункану Эппингу задали вопрос, основанный на материале, который он написал несколько лет назад для углублённого разбора механизма кластеризации VMware vSphere («Clustering Deepdive»).
В этой статье описывается последовательность действий, которые HA выполняет при возникновении отказа. Например, при выходе из строя вторичного (slave/secondary) узла последовательность выглядит так:
T – сбой вторичного узла.
T+3 сек – основной узел начинает мониторинг heartbeat-хранилищ в течение следующих 15 секунд.
T+10 сек – узел помечается как недоступный, и основной узел начинает пинговать управляющую сеть (management network) отказавшего узла. Пинг непрерывно продолжается в течение 5 секунд.
T+15 сек – если heartbeat-хранилища не настроены, узел объявляется «мёртвым».
T+18 сек – если heartbeat-хранилища настроены, узел объявляется «мёртвым».
Таким образом, в зависимости от того, есть ли настроенные heartbeat-хранилища, процедура занимает либо 15, либо 18 секунд. Значит ли это, что виртуальные машины сразу же перезапускаются, и если да, то сколько это займёт времени? На самом деле нет, они не перезапускаются моментально, потому что по завершении этой последовательности отказавший вторичный узел только объявляется недоступным. Затем необходимо проверить статус виртуальных машин, которые могли быть затронуты отказом, составить список ВМ для перезапуска и определить их размещение.
Запрос на размещение отправляется либо в DRS, либо обрабатывается самим HA, в зависимости от того, включён ли DRS и доступен ли сервер vCenter. После определения размещения основной (master) узел отправит на хосты команду перезапустить указанные виртуальные машины. После получения списка ВМ хосты начинают их перезапускать партиями по 32 штуки, при этом применяется установленный приоритет и порядок перезапуска. Этот процесс легко может занять 10–15 секунд (и даже больше), что означает, что в идеальных условиях перезапуск ВМ начнётся примерно через 30 секунд после сбоя. Но это лишь момент запуска виртуальной машины — сама ВМ и размещённые на ней сервисы, конечно же, не будут доступны через эти 30 секунд. Процесс включения машины может занять от нескольких секунд до нескольких минут, в зависимости от размера ВМ, гостевой ОС и сервисов, которые должны быть запущены.
Таким образом, хотя для определения и объявления отказа vSphere HA требуется всего 15–18 секунд, на самом деле процесс гораздо более сложный.
За последние 12 месяцев, с момента завершения приобретения VMware компанией Broadcom, сотрудники этих компаний провели многочисленные встречи с партнёрами — от индивидуальных консультаций до очных заседаний региональных консультативных советов и виртуальных мероприятий, чтобы понять, что именно им необходимо для увеличения выручки, повышения прибыльности и, что самое важное, улучшения обслуживания общих клиентов. На основе этих обсуждений в Broadcom обновили партнёрскую программу Broadcom Advantage и недавно представили новую систему на основе баллов, которая обеспечивает явные преимущества как для партнёров, так и для клиентов.
Обратная связь от партнёров легла в основу новой программы на основе баллов
Новая партнёрская программа на основе баллов поощряет и признаёт заслуги партнёров, основываясь на ключевых атрибутах, таких как объём заказов, обучение и развитие компетенций в области услуг. Она также выравнивает конкурентные условия: партнёры, инвестирующие в эти направления, продвигаются в программе независимо от размера компании. Основные элементы программы включают:
70% баллов начисляется за заказы, оценивая финансовый вклад.
30% баллов начисляется за технические знания, сертификации и возможности оказания услуг, такие как:
предпродажная поддержка и наличие сертифицированных технических специалистов VMware (Broadcom Knights со специализацией VMware Cloud Foundation);
послепродажное внедрение, сопровождение и поддержка клиентов;
участие в программе Expert Advantage, предоставление профессиональных или образовательных услуг и участие в других важных партнёрских инициативах.
Пересмотренная структура программы гарантирует, что партнёры, нацеленные на совершенство через услуги, сертификации или стратегические инвестиции, будут соответствующим образом вознаграждены.
Улучшения, ориентированные на партнёров
Следующие улучшения программы обеспечивают партнёрам необходимые инструменты, защиту и возможности для процветания в меняющихся условиях рынка ИТ:
Программа Achievers
Она представляет собой гибридную модель, сочетающую предварительные скидки с дополнительной прибылью после завершения сделок. Это позволяет партнёрам сохранять маржинальность, продолжая инвестировать в технические и сервисные возможности для долгосрочного успеха.
Ключевые особенности программы Achievers:
Возвращает ретроспективные выплаты (рибэйты) через дистрибьюторов, улучшая финансовую стабильность партнёров.
Включает компонент начисления вознаграждений за активности (Activities-Based Claim, ABC), стимулирующий постоянные инвестиции в решения VMware.
Вводит уровневую дифференциацию, предлагая более высокие выплаты в зависимости от уровня партнёра в рамках программы Advantage Partner Program.
Регистрация сделок на основе ценности
Broadcom высоко ценит экспертизу и усилия, которые партнёры вкладывают в работу с клиентами. Мы отдаём приоритет партнёрам, которые инвестируют в предпродажную работу, техническое развитие, послепродажные услуги и успех клиентов. Такой подход обеспечивает:
Более надёжную защиту сделок для партнёров, активно развивающих клиентские проекты.
Более выраженную дифференциацию партнёров, предоставляющих дополнительную ценность помимо перепродажи.
Повышенную маржинальность и конкурентные преимущества для партнёров, демонстрирующих высокую экспертизу.
Новая защита при продлении договоров
Продления являются критически важными для сохранения клиентов и прибыльности партнёров. Политика защиты теперь строго применяется к реальным продлениям, которые определяются как сделки с тем же продуктом, сроком действия и количеством ядер. Новые ёмкости (дополнительные ядра), новые сделки и миграции теперь подпадают под регистрацию сделок, а не под защиту существующих условий.
Новая модель защиты продлений гарантирует приоритет партнёрам, которые управляют текущими отношениями с VMware, сохраняя их долгосрочные инвестиции в успех клиентов. Эта модель обеспечивает партнёрам:
Защиту цен для партнёров, активно взаимодействующих с клиентами.
Упрощённый процесс продления, повышающий операционную эффективность.
Более значимые стимулы для расширения возможностей продлений через дополнительные мощности и сопутствующие решения, которые теперь можно регистрировать одновременно с продлением.
Практические инструменты и аналитика для роста партнёров
Broadcom инвестирует в системы и инструменты, предоставляя партнёрам подробную аналитику для развития бизнеса и роста. Эти улучшения обеспечивают:
Аналитику для мониторинга эффективности, сделок, уровня участия и прогресса в программе.
Улучшенную видимость предстоящих продлений, что позволяет вести упреждающую работу с клиентами.
Панели управления активацией клиентов, помогающие партнёрам оптимизировать возможности для роста, продажи дополнительных мощностей или продвижения услуг по внедрению.
Более подробно о нововведениях партнерской программы Broadcom можно почитать здесь.
В современной динамично развивающейся сфере информационных технологий автоматизация уже не роскошь, а необходимость. Команды, отвечающие за безопасность, сталкиваются с растущей сложностью управления политиками сетевой безопасности, что требует эффективных и автоматизированных решений. Межсетевой экран vDefend, интегрированный с VMware NSX, предлагает мощные возможности автоматизации с использованием различных инструментов и языков сценариев. Выпущенное недавно руководство "Beginners Guide to Automation with vDefend Firewall" рассматривает стратегии автоматизации, доступные в vDefend, которые помогают ИТ-специалистам упростить рабочие процессы и повысить эффективность обеспечения безопасности.
Понимание операций CRUD в сетевой автоматизации
Операции CRUD (Create, Read, Update, Delete) являются основой рабочих процессов автоматизации. vDefend позволяет выполнять эти операции через RESTful API-методы:
GET — получение информации о ресурсе.
POST — создание нового ресурса.
PUT/PATCH — обновление существующих ресурсов.
DELETE — удаление ресурса.
Используя эти методы REST API, ИТ-команды могут автоматизировать политики межсетевого экрана, создавать группы безопасности и настраивать сетевые параметры без ручного вмешательства.
Стратегии автоматизации для межсетевого экрана vDefend
С vDefend можно использовать несколько инструментов автоматизации, каждый из которых предлагает уникальные преимущества:
Вызовы REST API через NSX Policy API - API политики NSX Manager позволяют напрямую выполнять действия CRUD с сетевыми ресурсами. Разработчики могут использовать языки программирования, такие как Python, GoLang и JavaScript, для написания сценариев взаимодействия с NSX Manager, обеспечивая бесшовную автоматизацию задач безопасности.
Terraform и OpenTofu - эти инструменты «инфраструктура-как-код» (IaC) помогают стандартизировать развертывание сетей и политик безопасности. Используя декларативные манифесты, организации могут определять балансировщики нагрузки, правила межсетевого экрана и политики безопасности, которые могут контролироваться версионно и развертываться через CI/CD-конвейеры.
Ansible - этот инструмент часто применяется для развертывания основных компонентов NSX, включая NSX Manager, Edge и транспортные узлы. ИТ-команды могут интегрировать Ansible с Terraform для полной автоматизации конфигурации сети.
PowerCLI — это модуль PowerShell для VMware, который позволяет администраторам эффективно автоматизировать конфигурации межсетевых экранов и политик сетевой безопасности.
Aria Automation Suite - платформа Aria обеспечивает оркестрацию задач сетевой безопасности корпоративного уровня. Она включает:
Aria Assembler — разработка и развертывание облачных шаблонов для настройки безопасности.
Aria Orchestrator — автоматизация сложных рабочих процессов для управления безопасностью NSX.
Aria Service Broker — портал самообслуживания для автоматизации сетевых и защитных операций.
Ключевые основы работы с API
Для эффективного использования возможностей автоматизации vDefend важно понимать архитектуру его API:
Иерархическая структура API: API NSX построен по древовидной структуре с ресурсами в отношениях родитель-потомок.
Пагинация с курсорами: большие наборы данных разбиваются на страницы с использованием курсоров для повышения эффективности запросов.
Порядковые номера: правила межсетевого экрана выполняются сверху вниз, приоритет отдается правилам с меньшими порядковыми номерами.
Методы аутентификации: вызовы API требуют аутентификации через базовую авторизацию, сеансовые токены или ключи API.
Пример полномасштабной автоматизации
Реальный сценарий автоматизации с использованием vDefend включает:
Сбор информации о виртуальных машинах — идентификацию ВМ и получение тегов безопасности.
Присвоение тегов ВМ — назначение меток для категоризации ресурсов.
Создание групп — динамическое формирование групп безопасности на основе тегов ВМ.
Определение пользовательских служб — создание пользовательских сервисов межсетевого экрана с конкретными требованиями к портам.
Создание политик и правил межсетевого экрана — автоматизация развертывания политик для применения мер безопасности.
Например, автоматизированное правило межсетевого экрана для разрешения HTTPS-трафика от группы веб-серверов к группе приложений будет выглядеть следующим образом в формате JSON:
С момента объявления о том, что VMware Fusion и VMware Workstation стали доступными бесплатно с 11 ноября 2024 года, команда инженеров VMware получила положительный отклик от пользователей в коммерческом, образовательном и личном секторах. Благодаря этому изменению пользователи теперь могут бесплатно использовать эти инструменты виртуализации для настольных платформ.
Положительный отклик клиентов и обратная связь
После перехода на бесплатную модель были получены ценные отзывы от пользователей, которые воспользовались возможностью свободно применять VMware Fusion и Workstation. Многие клиенты поделились, как эти инструменты соответствуют их потребностям и помогают в их проектах. Доступность этих продуктов помогла упростить рабочие процессы и повысить продуктивность.
Однако надо напомнить, что пользователи бесплатных версий VMware Fusion и VMware Workstation НЕ ИМЕЮТ ПРАВА НА ПОДДЕРЖКУ ЧЕРЕЗ ГЛОБАЛЬНУЮ СЛУЖБУ ПОДДЕРЖКИ. Компания Broadcom призывает всех пользователей продолжать предоставлять обратную связь, публикуя свои вопросы, замечания и проблемы на различных порталах сообщества (Fusion и Workstation), которые лучше всего подходят для получения ответов на такие вопросы.
Улучшение поддержки с помощью доступных ресурсов
VMware еще раз приводит список ресурсов, которые в настоящее время доступны пользователям VMware Fusion и Workstation. Эти ресурсы разработаны для решения распространенных вопросов, предоставления руководств по устранению неполадок и помощи в освоении функций данных продуктов.
Вот что сейчас доступно:
Обновленные рекомендации по запросам в службу поддержки: VMware создала новую статью в базе знаний, в которой освещены наиболее распространенные вопросы и проблемы, с которыми сталкиваются пользователи при начальном освоении VMware Desktop Hypervisor. В статье представлено краткое описание этих проблем и их решений. Ознакомиться с материалом можно здесь.
Пошаговое руководство по установке: VMware подготовила подробное руководство по загрузке и установке VMware Desktop Hypervisor. Оно включает полезные ссылки и скриншоты всего процесса, чтобы вы могли быстро начать работу. Доступ к руководству можно получить здесь.
Обновленные ссылки для загрузки и руководство по установке: VMware обновила ссылки для скачивания VMware Desktop Hypervisor. Актуальные версии VMware Fusion и Workstation теперь можно скачать здесь.
Расширенная база знаний: VMware пополнила базу знаний новыми статьями и решениями, охватывающими дополнительные сценарии устранения неполадок, расширенные функции и советы по настройке. Независимо от того, являетесь ли вы новым пользователем или опытным специалистом, эти ресурсы помогут вам быстро найти ответы.
Дополнительные обучающие материалы и руководства: чтобы упростить освоение и эффективное использование VMware Fusion и Workstation, VMware добавила новые пошаговые руководства (Workstation и Fusion). В них рассматриваются вопросы от базовой установки до продвинутых настроек, предлагая практические решения для повседневного использования.
Доступ к сообществу: пользовательское сообщество остается ценным пространством для обмена советами, решениями и опытом. VMware наблюдает рост активности на форумах, где пользователи помогают друг другу решать проблемы и делятся лучшими практиками. В компании приглашают вас присоединиться к обсуждениям и внести свой вклад:
Эти ресурсы доступны всем пользователям, и VMware рекомендует вам активно использовать их для самостоятельной поддержки и обучения.
Переход на бесплатную модель – лишь один из шагов в продолжающихся усилиях по удовлетворению потребностей пользователей. VMware продолжает совершенствовать пользовательский опыт, улучшая и расширяя предложения, чтобы VMware Fusion и Workstation оставались ценными инструментами. Чтобы узнать больше о платформах VMware Desktop Hypervisors и получить дополнительные ресурсы, посетите страницу продуктов и раздел FAQ.
На просторах обнаружился интересный сайт VeeamClick.be, предлагающий интерактивные демонстрации продуктов Veeam, что позволяет пользователям ознакомиться с функциональными возможностями решений компании в режиме онлайн. Сайт создан и поддерживается Стийном Маривоетом (Stijn Marivoet) и предоставляет бесплатный доступ к своим материалам.
Основные разделы сайта:
Veeam Backup and Replication: в этом разделе представлены как базовые, так и расширенные операции, компоненты архитектуры продукта и функции, ориентированные на безопасность.
M365 Backup: здесь можно найти демонстрации по резервному копированию Microsoft 365 с использованием Veeam Backup for M365 и Veeam Data Cloud.
Veeam Orchestrator: интерактивные материалы по оркестрации процессов резервного копирования и восстановления.
Veeam Backup for Salesforce: демонстрации, показывающие возможности резервного копирования данных Salesforce.
K10: материалы, связанные с инфраструктурой Kubernetes и решениями Veeam для контейнеризированных приложений.
Каждый из этих разделов содержит списки потенциальных операций и функций, доступных для изучения. Если у пользователей есть специфические запросы, они могут связаться с администратором сайта для получения дополнительной информации.
Если логи вашего vCenter переполнены сообщениями ApiGwServicePrincipal об истечении срока действия токенов, вы не одиноки. Частые записи уровня «info» в файле apigw.log могут засорять вашу систему, затрудняя выявление реальных проблем. К счастью, есть простое решение: измените уровень логирования с «info» на «error». Автор блога cosmin.us подробно рассказал, как именно можно эффективно уменьшить количество этих лишних записей в журнале.
Со стороны сервера VMware vCenter в логе вы можете увидеть записи следующего вида:
The token with id '_9eb499f7-5f0e-4b83-9149-e64ae5bbf202' for domain vsphere.local(9d121150-d80b-4dbe-8f8a-0254435cf32a) is unusable (EXPIRED). Will acquire a fresh one.
Эти сообщения появляются потому, что по умолчанию для файла apigw.log установлен уровень логирования «info». В результате регистрируется каждое истечение срока действия и обновление токена — обычный процесс, который не требует постоянного внимания. Итог — перегруженные журналы и возможное снижение производительности. Изменив уровень логирования на «error», вы сможете ограничить записи в журналах только критически важными проблемами.
Внимательно следуйте данным инструкциям, чтобы изменить уровень логирования для apigw.log. Этот процесс применим как к отдельным серверам vCenter, так и к серверам в режиме Enhanced Linked Mode.
Создание снапшота сервера vCenter
Перед внесением изменений защитите свою среду, создав снапшот vCenter. Если ваши серверы vCenter работают в режиме Enhanced Linked Mode, используйте оффлайн-снапшоты для обеспечения согласованности всех узлов. Этот снимок послужит вариантом отката, если что-то пойдёт не так.
Войдите на устройство vCenter Server Appliance (VCSA) по SSH с правами root. Выполните следующую команду для резервного копирования файла vmware-services-vsphere-ui.conf:
Перезапуск этих служб активирует новые настройки логирования.
Проверка результата
После перезапуска сервисов убедитесь, что избыточные сообщения об истечении срока действия токенов прекратились. Теперь при уровне логирования «error» будут появляться только критические проблемы, делая ваши журналы более понятными и полезными.
Недавно было объявлено о доступности VMware vSphere Kubernetes Service (VKS) 3.3 (ранее известного как решение VMware Tanzu Kubernetes Grid (TKG) Service), а также о выпуске vSphere Kubernetes release (VKr) 1.32, ранее называвшегося Tanzu Kubernetes release. В этом выпуске представлены важные функции и улучшения, направленные на повышение безопасности, масштабируемости и управления кластерами.
Поддержка актуального релиза Kubernetes 1.32
С выпуском VKS 3.3 теперь возможно развертывание рабочих кластеров на базе VKr 1.32, основанного на последнем минорном выпуске Kubernetes 1.32. Использование последних версий Kubernetes обеспечивает безопасность, высокую производительность и совместимость с современными приложениями. vSphere Kubernetes release 1.32 обеспечивает повышение эффективности, безопасности и гибкости рабочих нагрузок.
Гибкость активации режима FIPS на уровне ОС
Данный выпуск вводит новую возможность настройки режима FIPS на уровне операционной системы, гарантируя использование только одобренных FIPS криптографических модулей. Администраторы могут самостоятельно решить, активировать ли режим FIPS для кластеров на Linux и Windows. Для активации функции необходимо настроить переменную класса кластера 'osConfiguration'. Для включения данной функции в Ubuntu-версии vSphere Kubernetes может потребоваться подписка Ubuntu Pro. Подробная информация представлена в документации.
Если ваша организация работает в регулируемой отрасли (государственные учреждения, финансы, здравоохранение и др.), соответствие стандартам FIPS необходимо для соблюдения требований безопасности и снижения рисков несоответствия.
Переход на Cluster API
Как было объявлено в документации к выпуску VKS 3.2, API TanzuKubernetesCluster будет удалён не ранее июня 2025 года. VKS 3.3 вводит упрощённый механизм миграции кластеров с TKC на Cluster API для развертывания и настройки рабочих кластеров. Переход на Cluster API обеспечивает лучшую автоматизацию и будущую совместимость. Рекомендуется заранее планировать переход на Cluster API, чтобы избежать сбоев после удаления TKC API.
Другие важные улучшения
Интеграция узлов Windows с Active Directory (поддержка gMSA) – начиная с VKS 3.3, вы можете подключать узлы Windows к локальной службе Active Directory с использованием учётных записей группового управления (Group Managed Service Accounts, gMSA) для безопасной аутентификации. Можно автоматизировать подключение узлов Windows к домену Active Directory в организационных подразделениях и добавлять их в группу безопасности, управляющую доступом к gMSA. Это упрощает интеграцию рабочих нагрузок Kubernetes на базе Windows в предприятиях, использующих Active Directory, повышая безопасность и операционную эффективность. Подробности можно найти в документации.
Автомасштабирование кластеров в обе стороны – VKS 3.3 позволяет масштабировать кластеры от нуля до любого количества рабочих узлов при использовании VKr версии 1.31.4 и новее. Ранее эта функция была недоступна со времен появления Cluster Autoscaler в vSphere 8.0 U3. Также это способствует экономии средств и оптимизации ресурсов, позволяя динамически масштабировать рабочие нагрузки до нуля в неиспользуемый период и эффективно справляться с сезонными всплесками активности.
Механизмы для упрощения обновления (Guard Rails) - обновления через несколько версий могут быть затруднены, особенно с устаревшими ресурсами. В версии VKr 1.31.1 в Antrea 2.1 некоторые CRD были объявлены устаревшими и должны быть заменены на новые версии.
Обновление до VKr 1.31.1 – перед обновлением обязательно выполнить минимальные ручные инструкции, указанные в Release Notes 1.31.1, иначе обновление может завершиться неудачно.
Обновление до VKr 1.31.4 – При обновлении до версии VKr 1.31.4 устаревшие CRD Antrea автоматически заменяются новыми версиями, поэтому ручные действия не требуются.
В VKS 3.3 встроены механизмы защиты от потенциальных ошибок при обновлении. Если рабочий кластер использует Kubernetes версии 1.30.x и обновлен до VKS 3.3, обновление до Kubernetes версии 1.31.1 заблокировано. Вместо этого рекомендуется сразу перейти на версию 1.31.4, которая не требует ручных действий. Если рабочий кластер уже на версии VKr 1.31.1, то обновление до VKS 3.3 заблокировано до предварительного обновления до VKr 1.31.4.
Заключение
vSphere Kubernetes Service 3.3 предлагает повышенную безопасность, улучшенную масштабируемость, оптимизацию расходов и усовершенствованное управление жизненным циклом кластеров для оптимизации Kubernetes-сред клиентов. О работе продукта также можно почитать вот эту полезную статью.
Документ Network Observability Maturity Model от компании Broadcom представляет собой руководство по достижению высокого уровня наблюдаемости (observability) сетей, что позволяет ИТ-командам эффективно управлять современными сложными сетевыми инфраструктурами.
С развитием облачных технологий, удаленной работы и зависимости от внешних провайдеров, традиционные инструменты мониторинга устарели. В документе описана модель зрелости наблюдаемости сети, которая помогает организациям эволюционировать от базового мониторинга до полностью автоматизированного и самовосстанавливающегося управления сетью.
Основные вызовы в управлении сетями
Растущая сложность – 78% компаний отмечают, что управление сетями стало значительно сложнее из-за многообразия технологий и распределенных архитектур.
Удаленная работа – 95% компаний используют гибридный режим работы, что усложняет контроль за производительностью сетей, зависящих от домашних Wi-Fi и внешних провайдеров.
Облачные технологии – 98% организаций уже используют облачную инфраструктуру, что приводит к недостатку прозрачности в управлении данными и сетевым трафиком.
Зависимость от сторонних сервисов – 65% компаний передают часть сетевого управления сторонним поставщикам, что затрудняет полное наблюдение за сетью.
Рост потребности в пропускной способности – развитие AI и других технологий увеличивает нагрузку на сети, требуя более эффективных стратегий управления трафиком.
Устаревшие инструменты – 80% компаний считают, что традиционные средства мониторинга не обеспечивают должного уровня видимости сети.
Последствия недостаточной наблюдаемости
Проблемы с диагностикой – 76% сетевых команд испытывают задержки из-за недостатка данных.
Реактивный подход – 84% компаний узнают о проблемах от пользователей, а не от систем мониторинга.
Избыточные тревоги – 41% организаций сталкиваются с ложными срабатываниями, что увеличивает время поиска неисправностей.
Сложности с наймом специалистов – 48% компаний не могут найти специалистов с нужными навыками.
Ключевые требования для построения наблюдаемости сети
Видимость внешних сред – важна мониторинговая прозрачность не только для внутренних сетей, но и для облаков и провайдеров.
Интеллектуальный анализ данных – использование алгоритмов для корреляции событий, подавления ложных тревог и прогнозирования отказов.
Активный мониторинг – симуляция сетевого трафика позволяет выявлять узкие места в режиме реального времени.
Автоматизация и интеграция – объединение разрозненных инструментов в единую систему с автоматическими рекомендациями по устранению неполадок.
Модель зрелости наблюдаемости сети
Модель зрелости состоит из пяти уровней:
Ручной уровень – разрозненные инструменты, долгие поиски неисправностей.
Традиционный уровень – базовое объединение инструментов, но с разрывами между данными.
Современный уровень – использование активного мониторинга и потоковой телеметрии.
Следующее поколение – автоматизированные решения на основе AI/ML, минимизация ложных тревог.
Самообслуживание и самовосстановление – автоматическая коррекция сетевых аномалий без вмешательства человека.
Практическая реализация модели
Для внедрения зрелой системы наблюдаемости компании должны:
Создать единую модель данных для многовендорных сетей.
Инвестировать в решения с AI-аналитикой.
Использовать активное и потоковое наблюдение за сетью.
Интегрировать мониторинг как внутренних, так и внешних сетей.
Документ Network Observability Maturity Model подчеркивает важность перехода от традиционного мониторинга к интеллектуальной наблюдаемости сети. Автоматизация, AI-аналитика и активный мониторинг позволяют существенно сократить время диагностики проблем, снизить издержки и повысить надежность сетевых сервисов. В документе даны полезные рекомендации по развитию мониторинговых систем, обеспечивающих полную прозрачность работы сети и снижение нагрузки на ИТ-отделы.