В предыдущей статье мы рассмотрели, что производительность vSAN зависит не только от физической пропускной способности сети, соединяющей хосты vSAN, но и от архитектуры самого решения. При использовании vSAN ESA более высокоскоростные сети в сочетании с эффективным сетевым дизайном позволяют рабочим нагрузкам в полной мере использовать возможности современного серверного оборудования. Стремясь обеспечить наилучшие сетевые условия для вашей среды vSAN, вы, возможно, задаётесь вопросом: можно ли ещё как-то улучшить производительность vSAN за счёт сети? В этом посте мы обсудим использование vSAN поверх RDMA и разберёмся, подойдёт ли это решение вам и вашей инфраструктуре.
Обзор vSAN поверх RDMA
vSAN использует IP-сети на базе Ethernet для обмена данными между хостами. Ethernet-кадры (уровень 2) представляют собой логический транспортный слой, обеспечивающий TCP-соединение между хостами и передачу соответствующих данных. Полезная нагрузка vSAN размещается внутри этих пакетов так же, как и другие типы данных. На протяжении многих лет TCP поверх Ethernet обеспечивал исключительно надёжный и стабильный способ сетевого взаимодействия для широкого спектра типов трафика. Его надёжность не имеет аналогов — он может функционировать даже в условиях крайне неудачного проектирования сети и плохой связности.
Однако такая гибкость и надёжность имеют свою цену. Дополнительные уровни логики, используемые для подтверждения получения пакетов, повторной передачи потерянных данных и обработки нестабильных соединений, создают дополнительную нагрузку на ресурсы и увеличивают вариативность доставки пакетов по сравнению с протоколами без потерь, такими как Fibre Channel. Это может снижать пропускную способность и увеличивать задержки — особенно в плохо спроектированных сетях. В правильно организованных средах это влияние, как правило, незначительно.
Чтобы компенсировать особенности TCP-сетей на базе Ethernet, можно использовать vSAN поверх RDMA через конвергентный Ethernet (в частности, RoCE v2). Эта технология всё ещё использует Ethernet, но избавляется от части избыточной сложности TCP, переносит сетевые операции с CPU на аппаратный уровень и обеспечивает прямой доступ к памяти для процессов. Более простая сетевая модель высвобождает ресурсы CPU для гостевых рабочих нагрузок и снижает задержку при передаче данных. В случае с vSAN это улучшает не только абсолютную производительность, но и стабильность этой производительности.
RDMA можно включить в кластере vSAN через интерфейс vSphere Client, активировав соответствующую опцию в настройках кластера. Это предполагает, что вы уже выполнили все предварительные действия, необходимые для подготовки сетевых адаптеров хостов и коммутаторов к работе с RDMA. Обратитесь к документации производителей ваших NIC и коммутаторов для получения информации о необходимых шагах по активации RDMA.
Если в конфигурации RDMA возникает хотя бы одна проблема — например, один из хостов кластера теряет возможность связи по RDMA — весь кластер автоматически переключается обратно на TCP поверх Ethernet.
Рекомендация. Рассматривайте использование RDMA только в случае, если вы используете vSAN ESA. Хотя поддержка vSAN поверх RDMA появилась ещё в vSAN 7 U2, наибольшую пользу эта технология приносит в сочетании с высокой производительностью архитектуры ESA, начиная с vSAN 8 и выше.
Как указано в статье «Проектирование сети vSAN», использование RDMA с vSAN влечёт за собой дополнительные требования, ограничения и особенности. К ним относятся:
Коммутаторы должны быть совместимы с RDMA и настроены соответствующим образом (включая такие параметры, как DCB — Data Center Bridging и PFC — Priority Flow Control).
Размер кластера не должен превышать 32 хоста.
Поддерживаются только следующие политики объединения интерфейсов:
Route based on originating virtual port
Route based on source MAC hash
Использование LACP или IP Hash не поддерживается с RDMA.
Предпочтительно использовать отдельные порты сетевых адаптеров для RDMA, а не совмещать RDMA и TCP на одном uplink.
RDMA не совместим со следующими конфигурациями:
2-узловые кластеры (2-Node)
Растянутые кластеры (stretched clusters)
Совместное использование хранилища vSAN
Кластеры хранения vSAN (vSAN storage clusters)
В VCF 5.2 использование vSAN поверх RDMA не поддерживается. Эта возможность не интегрирована в процессы SDDC Manager, и не предусмотрено никаких способов настройки RDMA для кластеров vSAN. Любые попытки настроить RDMA через vCenter в рамках VCF 5.2 также не поддерживаются.
Прирост производительности при использовании vSAN поверх RDMA
При сравнении двух кластеров с одинаковым аппаратным обеспечением, vSAN с RDMA может показывать лучшую производительность по сравнению с vSAN, использующим TCP поверх Ethernet. В публикации Intel «Make the Move to 100GbE with RDMA on VMware vSAN with 4th Gen Intel Xeon Scalable Processors» были зафиксированы значительные улучшения производительности в зависимости от условий среды.
Рекомендация: используйте RDTBench для тестирования соединений RDMA и TCP между хостами. Это также отличный инструмент для проверки конфигурации перед развёртыванием производительного кластера в продакшене.
Fibre Channel — действительно ли это «золотой стандарт»?
Fibre Channel заслуженно считается надёжным решением в глазах администраторов хранилищ. Протокол Fibre Channel изначально разрабатывался с одной целью — передача трафика хранения данных. Он использует «тонкий стек» (thin stack), специально созданный для обеспечения стабильной и низколатентной передачи данных. Детеминированная сеть на базе Fibre Channel работает как единый механизм, где все компоненты заранее определены и согласованы.
Однако Fibre Channel и другие протоколы, рассчитанные на сети без потерь, тоже имеют свою цену — как в прямом, так и в переносном смысле. Это дорогая технология, и её внедрение часто «съедает» большую часть бюджета, уменьшая возможности инвестирования в другие сетевые направления. Кроме того, инфраструктуры на Fibre Channel менее гибкие по сравнению с Ethernet, особенно при необходимости поддержки разнообразных топологий.
Хотя Fibre Channel изначально ориентирован на физическую передачу данных без потерь, сбои в сети могут привести к непредвиденным последствиям. В спецификации 32GFC был добавлен механизм FEC (Forward Error Correction) для борьбы с кратковременными сбоями, но по мере роста масштаба фабрики растёт и её сложность, что делает реализацию сети без потерь всё более трудной задачей.
Преимущество Fibre Channel — не в абсолютной скорости, а в предсказуемости передачи данных от точки к точке. Как видно из сравнения, даже с учётом примерно 10% накладных расходов при передаче трафика vSAN через TCP поверх Ethernet, стандартный Ethernet легко может соответствовать или даже превосходить Fibre Channel по пропускной способности.
Обратите внимание, что такие обозначения, как «32GFC» и Ethernet 25 GbE, являются коммерческими названиями, а не точным отражением фактической пропускной способности. Каждый стандарт использует завышенную скорость передачи на уровне символов (baud rate), чтобы компенсировать накладные расходы протокола. В случае с Ethernet фактическая пропускная способность зависит от типа передаваемого трафика. Стандарт 40 GbE не упоминается, так как с 2017 года он считается в значительной степени устаревшим.
Тем временем Ethernet переживает новый виток развития благодаря инфраструктурам, ориентированным на AI, которым требуется высокая производительность без уязвимости традиционных «безубыточных» сетей. Ethernet изначально проектировался с учётом практических реалий дата-центров, где неизбежны изменения в условиях эксплуатации и отказы оборудования.
Благодаря доступным ценам на оборудование 100 GbE и появлению 400 GbE (а также приближению 800 GbE) Ethernet становится чрезвычайно привлекательным решением. Даже традиционные поставщики систем хранения данных в последнее время отмечают, что всё больше клиентов, ранее серьёзно инвестировавших в Fibre Channel, теперь рассматривают Ethernet как основу своей следующей сетевой архитектуры хранения. Объявление Broadcom о выпуске чипа Tomahawk 6, обеспечивающего 102,4 Тбит/с внутри одного кристалла, — яркий индикатор того, что будущее высокопроизводительных сетей связано с Ethernet.
С vSAN ESA большинство издержек TCP поверх Ethernet можно компенсировать за счёт грамотной архитектуры — без переподписки и с использованием сетевого оборудования, поддерживающего высокую пропускную способность. Это подтверждается в статье «vSAN ESA превосходит по производительности топовое хранилище у крупной финансовой компании», где vSAN ESA с TCP по Ethernet с лёгкостью обошёл по скорости систему хранения, использующую Fibre Channel.
Насколько хорош TCP поверх Ethernet?
Если у вас качественно спроектированная сеть с высокой пропускной способностью и без переподписки, то vSAN на TCP поверх Ethernet будет достаточно хорош для большинства сценариев и является наилучшей отправной точкой для развёртывания новых кластеров vSAN. Эта рекомендация особенно актуальна для клиентов, использующих vSAN в составе VMware Cloud Foundation 5.2, где на данный момент не поддерживается RDMA.
Хотя RDMA может обеспечить более высокую производительность, его требования и ограничения могут не подойти для вашей среды. Тем не менее, можно добиться от vSAN такой производительности и стабильности, которая будет приближена к детерминированной модели Fibre Channel. Для этого нужно:
Грамотно спроектированная сеть. Хорошая архитектура Ethernet-сети обеспечит высокую пропускную способность и низкие задержки. Использование топологии spine-leaf без блокировки (non-blocking), которая обеспечивает линейную скорость передачи от хоста к хосту без переподписки, снижает потери пакетов и задержки. Также важно оптимально размещать хосты vSAN внутри кластера — это повышает сетевую эффективность и производительность.
Повышенная пропускная способность. Устаревшие коммутаторы должны быть выведены из эксплуатации — им больше нет места в современных ЦОДах. Использование сетевых адаптеров и коммутаторов с высокой пропускной способностью позволяет рабочим нагрузкам свободно передавать команды на чтение/запись и данные без узких мест. Ключ к стабильной передаче данных по Ethernet — исключить ситуации, при которых кадры или пакеты TCP нуждаются в повторной отправке из-за нехватки ресурсов или ненадёжных каналов.
Настройка NIC и коммутаторов. Сетевые адаптеры и коммутаторы часто имеют настройки по умолчанию, которые не оптимизированы для высокой производительности. Это может быть подходящим шагом, если вы хотите улучшить производительность без использования RDMA, и уже реализовали два предыдущих пункта. В документе «Рекомендации по производительности для VMware vSphere 8.0 U1» приведены примеры таких возможных настроек.
Платформа vSphere всегда предоставляла несколько способов использовать несколько сетевых карт (NIC) совместно, но какой из них лучший для vSAN? Давайте рассмотрим ключевые моменты, важные для конфигураций vSAN в сетевой топологии. Этот материал не является исчерпывающим анализом всех возможных вариантов объединения сетевых интерфейсов, а представляет собой справочную информацию для понимания наилучших вариантов использования техники teaming в среде VMware Cloud Foundation (VCF).
Описанные здесь концепции основаны на предыдущих публикациях:
Объединение сетевых портов NIC — это конфигурация vSphere, при которой используется более одного сетевого порта для выполнения одной или нескольких задач, таких как трафик ВМ или трафик VMkernel (например, vMotion или vSAN). Teaming позволяет достичь одной или обеих следующих целей:
Резервирование: обеспечение отказоустойчивости в случае сбоя сетевого порта на хосте или коммутатора, подключенного к этому порту.
Производительность: распределение одного и того же трафика по нескольким соединениям может обеспечить агрегацию полосы пропускания и повысить производительность при нормальной работе.
В этой статье мы сосредоточимся на объединении ради повышения производительности.
Распространённые варианты объединения
Выбор варианта teaming для vSAN зависит от среды и предпочтений, но есть важные компромиссы, особенно актуальные для vSAN. Начиная с vSAN 8 U3, платформа поддерживает один порт VMkernel на хост, помеченный для трафика vSAN. Вот три наиболее распространённые подхода при использовании одного порта VMkernel:
1. Один порт VMkernel для vSAN с конфигурацией Active/Standby
Используются два и более аплинков (uplinks), один из которых активен, а остальные — в режиме ожидания.
Это наиболее распространённая и рекомендуемая конфигурация для всех кластеров vSAN.
Простая, надёжная, идеально подходит для трафика VMkernel (например, vSAN), так как обеспечивает предсказуемый маршрут, что особенно важно в топологиях spine-leaf (Clos).
Такой подход обеспечивает надежную и стабильную передачу трафика, но не предоставляет агрегации полосы пропускания — трафик проходит только по одному активному интерфейсу.
Обычно Standby-интерфейс используется для другого типа трафика, например, vMotion, для эффективной загрузки каналов.
2. Один порт VMkernel для vSAN с двумя активными аплинками (uplinks) и балансировкой Load Based Teaming (LBT)
Используются два и более аплинков в режиме «Route based on physical NIC load».
Это можно рассматривать как агрегацию на уровне гипервизора.
Изначально предназначен для VM-портов, а не для трафика VMkernel.
Преимущества для трафика хранилища невелики, могут вызывать проблемы из-за отсутствия предсказуемости маршрута.
Несмотря на то, что это конфигурация по умолчанию в VCF, она не рекомендуется для портов VMkernel, помеченных как vSAN.
В VCF можно вручную изменить эту конфигурацию на Active/Standby без проблем.
3. Один порт VMkernel для vSAN с использованием Link Aggregation (LACP)
Использует два и более аплинков с расширенным хешированием для балансировки сетевых сессий.
Может немного повысить пропускную способность, но требует дополнительной настройки на коммутаторах и хосте.
Эффективность зависит от топологии и может увеличить нагрузку на spine-коммутаторы.
Используется реже и ограниченно поддерживается в среде VCF.
Версия VCF по умолчанию может использовать Active/Active с LBT для трафика vSAN. Это универсальный режим, поддерживающий различные типы трафика, но неоптимален для VMkernel, особенно для vSAN.
Рекомендуемая конфигурация:
Active/Standby с маршрутизацией на основе виртуального порта (Route based on originating virtual port ID). Это поддерживается в VCF и может быть выбрано при использовании настраиваемого развертывания коммутатора VDS. Подробнее см. в «VMware Cloud Foundation Design Guide».
Можно ли использовать несколько портов VMkernel на хосте для трафика vSAN?
Теоретически да, но только в редком случае, когда пара коммутаторов полностью изолирована (подобно Fibre Channel fabric). Это не рекомендуемый и редко используемый вариант, даже в vSAN 8 U3.
Влияние объединения на spine-leaf-сети
Выбор конфигурации teaming на хостах vSAN может показаться несущественным, но на деле сильно влияет на производительность сети и vSAN. В топологии spine-leaf (Clos), как правило, нет прямой связи между leaf-коммутаторами. При использовании Active/Active LBT половина трафика может пойти через spine, вместо того чтобы оставаться на уровне leaf, что увеличивает задержки и снижает стабильность.
Аналогичная проблема у LACP — он предполагает наличие прямой связи между ToR-коммутаторами. Если её нет, трафик может либо пойти через spine, либо LACP-связь может полностью нарушиться.
На практике в некоторых конфигурациях spine-leaf коммутаторы уровня ToR (Top-of-Rack) соединены между собой через межкоммутаторное соединение, такое как MLAG (Multi-Chassis Link Aggregation) или VLTi (Virtual Link Trunking interconnect). Однако не стоит считать это обязательным или даже желательным в архитектуре spine-leaf, так как такие соединения часто требуют механизмов блокировки, например Spanning Tree (STP).
Стоимость и производительность: нативная скорость соединения против агрегации каналов
Агрегация каналов (link aggregation) может быть полезной для повышения производительности при правильной реализации и в подходящих условиях. Но её преимущества часто переоцениваются или неправильно применяются, что в итоге может приводить к большим затратам. Ниже — четыре аспекта, которые часто упускаются при сравнении link aggregation с использованием более быстрых нативных сетевых соединений.
1. Высокое потребление портов
Агрегация нескольких соединений требует большего количества портов и каналов, что снижает общую портовую ёмкость коммутатора и ограничивает количество возможных хостов в стойке. Это увеличивает расходы на оборудование.
2. Ограниченный прирост производительности
Агрегация каналов, основанная на алгоритмическом балансировании нагрузки (например, LACP), не дает линейного увеличения пропускной способности.
То есть 1+1 не равно 2. Такие механизмы лучше работают при большом количестве параллельных потоков данных, но малоэффективны для отдельных (дискретных) рабочих нагрузок.
3. Ошибочные представления об экономичности
Существует мнение, что старые 10GbE-коммутаторы более экономичны. На деле — это миф.
Более объективный показатель — это пропускная способность коммутатора, измеряемая в Гбит/с или Тбит/с. Хотя сам по себе 10Gb-коммутатор может стоить дешевле, более быстрые модели обеспечивают в 2–10 раз больше пропускной способности, что делает стоимость за 1 Гбит/с ниже. Кроме того, установка более быстрых сетевых адаптеров (NIC) на серверы обычно увеличивает стоимость менее чем на 1%, при этом может дать 2,5–10-кратный прирост производительности.
4. Нереализованные ресурсы
Современные серверы обладают огромными возможностями по процессору, памяти и хранилищу, но не могут раскрыть свой потенциал из-за сетевых ограничений.
Балансировка между вычислительными ресурсами и сетевой пропускной способностью позволяет:
сократить общее количество серверов;
снизить капитальные затраты;
уменьшить занимаемое пространство;
снизить нагрузку на систему охлаждения;
уменьшить потребление портов в сети.
Именно по этим причинам VMware рекомендует выбирать более высокие нативные скорости соединения (25Gb или 100Gb), а не полагаться на агрегацию каналов — особенно в случае с 10GbE. Напомним, что когда 10GbE появился 23 года назад, серверные процессоры имели всего одно ядро, а объём оперативной памяти составлял в 20–40 раз меньше, чем сегодня. С учётом того, что 25GbE доступен уже почти десятилетие, актуальность 10GbE для дата-центров практически исчерпана.
Объединение для повышения производительности и отказоустойчивости обычно предполагает использование нескольких физических сетевых карт (NIC), каждая из которых может иметь 2–4 порта. Сколько всего портов следует иметь на хостах vSAN? Это зависит от следующих факторов:
Степень рабочих нагрузок: среда с относительно пассивными виртуальными машинами предъявляет гораздо меньшие требования, чем среда с тяжёлыми и ресурсоёмкими приложениями.
Нативная пропускная способность uplink-соединений: более высокая скорость снижает вероятность конкуренции между сервисами (vMotion, порты ВМ и т.д.), работающими через одни и те же аплинки.
Используемые сервисы хранения данных: выделение пары портов для хранения (например, vSAN) почти всегда даёт наилучшие результаты — это давно устоявшаяся практика, независимо от хранилища.
Требования безопасности и изоляции: в некоторых средах может потребоваться, чтобы аплинки, используемые для хранения или других задач, были изолированы от остального трафика.
Количество портов на ToR-коммутаторах: количество аплинков может быть ограничено самими коммутаторами ToR. Пример: пара ToR-коммутаторов с 2?32 портами даст 64 порта на стойку. Если в стойке размещено максимум 16 хостов по 2U, каждый хост может получить максимум 4 uplink-порта. А если коммутаторы имеют по 48 портов, то на 16 хостов можно выделить по 6 uplink-портов на каждый хост. Меньшее количество хостов в стойке также позволяет увеличить количество портов на один хост.
Рекомендация:
Даже если вы не используете все аплинки на хосте, рекомендуется собирать vSAN ReadyNode с двумя NIC, каждая из которых имеет по 4 uplink-порта. Это позволит без проблем выделить отдельную команду (team) портов только под vSAN, что настоятельно рекомендуется. Такой подход обеспечит гораздо большую гибкость как сейчас, так и в будущем, по сравнению с конфигурацией 2 NIC по 2 порта.
Итог
Выбор оптимального варианта объединения (teaming) и скорости сетевых соединений для ваших хостов vSAN — это важный шаг к тому, чтобы обеспечить максимальную производительность ваших рабочих нагрузок.
Начиная с ноября 2024 года, VMware vSphere Foundation (VVF) начала включать 0,25 ТиБ ёмкости vSAN на одно ядро для всех новых лицензий VVF. С выходом обновления vSphere 8.0 U3e это преимущество распространяется и на существующих клиентов — теперь им также доступна ёмкость vSAN из расчёта 0,25 ТиБ (аналог терабайта) на ядро. Это новое право на использование включает дополнительные преимущества, которые повышают ценность vSAN в составе VVF.
Вот как это работает:
Ёмкость vSAN агрегируется по всей инфраструктуре, что позволяет перераспределять неиспользованные ресурсы с кластеров, содержащих только вычислительные узлы, на кластеры с включённым vSAN. Это помогает оптимизировать использование ресурсов в рамках всей инфраструктуры.
Новые преимущества для текущих клиентов:
Больше никаких ограничений пробной версии: включённые 0,25 ТиБ на ядро теперь полностью предоставлены по лицензии, а не в рамках пробного периода.
Агрегация ёмкости: объединяйте хранилище между кластерами и используйте его там, где это нужнее всего.
Упрощённое масштабирование: если требуется больше хранилища, чем предусмотрено по включённой норме — достаточно просто докупить нужный объём сверх этой квоты.
Почему это важно
Благодаря этому обновлению VMware vSphere Foundation становится ещё более привлекательным решением для организаций, стремящихся модернизировать и унифицировать свою ИТ-инфраструктуру. Поддерживая как виртуальные машины, так и контейнеры, vSAN добавляет возможности гиперконвергентной инфраструктуры (HCI) корпоративного уровня. Интеграция вычислений, хранения и управления в единую платформу упрощает операционные процессы, снижает сложность и обеспечивает комплексное решение с встроенной безопасностью и масштабируемостью.
Дополнительная ёмкость vSAN в составе VMware vSphere Foundation значительно повышает ценность платформы — будь то оптимизация частного облака, повышение гибкости разработки или упрощение ИТ-операций. Это даёт больше контроля и гибкости над инфраструктурой, снижая совокупную стоимость владения и минимизируя операционные издержки.
Чтобы начать пользоваться бесплатной лицензией VMware vSAN загрузите патч vSphere 8.0 Update 3e по этой ссылке.
Компания Broadcom сообщает, что с 24 марта 2025 года произойдёт важное изменение в процессе загрузки бинарных файлов ПО VMware (включая обновления и исправления) для продуктов VMware Cloud Foundation (VCF), vCenter, ESXi и служб vSAN. Это обновление упростит доступ и приведёт его в соответствие с текущими передовыми практиками отрасли.
Ниже представлена вся необходимая информация о грядущих изменениях и их влиянии на вас.
Что именно изменится?
С 24 марта 2025 года текущий процесс загрузки бинарных файлов будет заменён новым методом. Данное изменение предполагает:
Централизация на едином ресурсе: бинарные файлы программного обеспечения будут доступны для загрузки с единого сайта, а не с нескольких различных ресурсов, как ранее. Это будет доступно как для онлайн-сред, так и для изолированных («air-gapped») систем.
Проверка загрузок: загрузка будет авторизована с помощью уникального токена. Новые URL-адреса будут содержать этот токен, подтверждающий, что именно вы являетесь авторизованным пользователем или стороной, осуществляющей загрузку файла.
Примечание: текущие URL-адреса для загрузки будут доступны в течение одного месяца для облегчения переходного периода. С 24 апреля 2025 года текущие URL-адреса перестанут действовать.
Что это значит для вас?
Вам необходимо выполнить следующие действия:
Получите токен загрузки: войдите на сайт support.broadcom.com, чтобы получить уникальный токен.
Изучите техническую документацию: ознакомьтесь с KB-статьями, в которых изложены требования и пошаговые инструкции.
Обновите URL-адреса в продуктах: Broadcom предоставит скрипт, который автоматизирует замену текущих URL-адресов в продуктах ESXi, vCenter и SDDC Manager.
Обновите скрипты автоматизации (если применимо): Если у вас есть собственные скрипты, обновите URL-адреса согласно рекомендациям из KB-статей.
Где получить дополнительную информацию?
Рекомендуемые материалы для успешного перехода на новую систему:
Недавно Дункану Эппингу задали вопрос о том, сколько памяти должна иметь конфигурация AF-4 ReadyNode, чтобы она поддерживалась. Понтяно, откуда возник этот вопрос, но большинство людей не осознают, что существует набор минимальных требований, а профили ReadyNode, как указано в базе знаний (KB), являются лишь рекомендациями. Перечисленные конфигурации – это ориентир. Эти рекомендации основаны на предполагаемом потреблении ресурсов для определенного набора виртуальных машин. Конечно, для вашей нагрузки требования могут быть совершенно другими. Именно поэтому в статье, описывающей аппаратные рекомендации, теперь четко указано следующее:
Чтобы конфигурация поддерживалась службой глобальной поддержки VMware Global Services (GS), все сертифицированные для vSAN ESA ReadyNode должны соответствовать или превышать ресурсы самой минимальной конфигурации (vSAN-ESA-AF-0 для vSAN HCI или vSAN-Max-XS для vSAN Max).
Это относится не только к объему памяти, но и к другим компонентам, при условии соблюдения минимальных требований, перечисленных в таблице ниже (учтите, что это требования для архитектуры ESA, для OSA они другие):
Он представляет собой презентацию, в которой подробно рассматриваются три основных способа упрощения управления хранилищами данных с помощью VMware vSAN:
Упрощение операций с помощью управления на основе политик хранения: VMware vSAN позволяет администраторам задавать политики хранения, которые автоматически применяются к виртуальным машинам. Это устраняет необходимость в ручной настройке и снижает вероятность ошибок, обеспечивая согласованность и эффективность управления хранилищем.
Упрощение управления жизненным циклом хранилища: традиционные системы хранения часто требуют сложного и трудоемкого обслуживания. VMware vSAN интегрируется непосредственно в гипервизор vSphere, что позволяет автоматизировать многие процессы, такие как обновление и масштабирование, значительно снижая операционные затраты и облегчая сопровождение инфраструктуры.
Упрощение хранения за пределами центра обработки данных: с ростом объемов данных и необходимостью их обработки на периферийных устройствах и в облаке, VMware vSAN предлагает решения для консистентного и эффективного управления хранилищем в распределенных средах. Это обеспечивает единообразие операций и политики безопасности независимо от местоположения данных.
Этот документ предназначен для ИТ-специалистов и руководителей, стремящихся оптимизировать свою инфраструктуру хранения данных, снизить сложность управления и подготовить свою организацию к будущим вызовам.
Некоторое время назад Вильям Лам поделился решением, позволяющим установить VIB-пакет в сборке для Nested ESXi при использовании vSAN Express Storage Architecture (ESA) и VMware Cloud Foundation (VCF), чтобы обойти предварительную проверку на соответствие списку совместимого оборудования vSAN ESA (HCL) для дисков vSAN ESA.
Хотя в большинстве случаев Вильям использует Nested ESXi для тестирования, недавно он развернул физическую среду VCF. Из-за ограниченного количества NVMe-устройств он хотел использовать vSAN ESA для домена управления VCF, но, конечно же, столкнулся с той же проверкой сертифицированных дисков vSAN ESA, которая не позволяла установщику продолжить процесс.
Вильям надеялся, что сможет использовать метод эмуляции для физического развертывания. Однако после нескольких попыток и ошибок он столкнулся с нестабильным поведением. Пообщавшись с инженерами, он выяснил, что существующее решение также применимо к физическому развертыванию ESXi, поскольку аппаратные контроллеры хранилища скрываются методом эмуляции. Если в системе есть NVMe-устройства, совместимые с vSAN ESA, предварительная проверка vSAN ESA HCL должна пройти успешно, что позволит продолжить установку.
Вильям быстро переустановил последнюю версию ESXi 8.0 Update 3b на одном из своих физических серверов, установил vSAN ESA Hardware Mock VIB и, используя последнюю версию VCF 5.2.1 Cloud Builder, успешно прошел предварительную проверку vSAN ESA, после чего развертывание началось без проблем!
Отлично, что теперь это решение работает как для физических, так и для вложенных (nested) ESXi при использовании с VCF, особенно для создания демонстрационных сред (Proof-of-Concept)!
Примечание: В интерфейсе Cloud Builder по-прежнему выполняется предварительная проверка физических сетевых адаптеров, чтобы убедиться, что они поддерживают 10GbE или более. Таким образом, хотя проверка совместимости vSAN ESA HCL пройдет успешно, установка все же завершится с ошибкой при использовании UI.
Обходной путь — развернуть домен управления VCF с помощью Cloud Builder API, где проверка на 10GbE будет отображаться как предупреждение, а не как критическая ошибка, что позволит продолжить развертывание. Вы можете использовать этот короткий PowerShell-скрипт для вызова Cloud Builder API, а затем отслеживать процесс развертывания через UI Cloud Builder.
$cloudBuilderIP = "192.168.30.190"
$cloudBuilderUser = "admin"
$cloudBuilderPass = "VMware123!"
$mgmtDomainJson = "vcf50-management-domain-example.json"
#### DO NOT EDIT BEYOND HERE ####
$inputJson = Get-Content -Raw $mgmtDomainJson
$pwd = ConvertTo-SecureString $cloudBuilderPass -AsPlainText -Force
$cred = New-Object Management.Automation.PSCredential ($cloudBuilderUser,$pwd)
$bringupAPIParms = @{
Uri = "https://${cloudBuilderIP}/v1/sddcs"
Method = 'POST'
Body = $inputJson
ContentType = 'application/json'
Credential = $cred
}
$bringupAPIReturn = Invoke-RestMethod @bringupAPIParms -SkipCertificateCheck
Write-Host "Open browser to the VMware Cloud Builder UI to monitor deployment progress ..."
В этой статье мы обобщим лучшие практики использования платформы VMware vSAN, которые нужно применять для первоначального планирования инфраструктуры отказоустойчивых хранилищ. VMware vSAN имеет некоторые минимальные требования для создания кластера, но этих требований достаточно только при создании кластера для малого бизнеса, когда там не требуется высокая степень доступности данных и сервисов. Давайте рассмотрим требования и лучшие практики платформы vSAN, охватывающие диапазон от малого до корпоративного уровня.
Количество хостов в кластере
Количество хостов в кластере VMware vSAN напрямую влияет на масштабируемость, производительность и отказоустойчивость. Минимальные требования тут такие:
Кластер из 2 хостов — минимальная конфигурация, поддерживаемая внешней witness-машиной для обеспечения кворума. Такая настройка является экономичной, но не обладает продвинутыми функциями и масштабируемостью.
Кластер из 3 хостов — устраняет необходимость в выделенном witness-узле и обеспечивает базовую избыточность с использованием RAID 1.
Несмотря на эти минимальные требования, VMware рекомендует использовать не менее 4 хостов для производственных сред. Кластер из 4 и более хостов позволяет использовать конфигурации RAID 5 и RAID 6, обеспечивая защиту до двух отказов одновременно (в этом случае потребуется больше 4 хостов ESXi) и поддерживая операции обслуживания отдельных хостов ESXi без потери доступности машин кластера.
Лучшие практики:
Используйте не менее 4-х хостов для производственной среды, чтобы обеспечить отказоустойчивость и надежность.
Для критически важных нагрузок добавляйте дополнительные хосты ESXi при росте инфраструктуры и обеспечивайте дополнительную резервную емкость на случай отказов.
Числов хостов ESXi в кластере
Возможности
Отказоустойчивость
Уровни RAID
Когда использовать
2
Базовые, нужен компонент Witness
Один отказ хоста
RAID 1
Малый бизнес или маленький филиал
3
Полная функциональность vSAN
Один отказ хоста
RAID 1
Небольшие компании и удаленные офисы
4+
Дополнительно доступен RAID 5/6
Один или два отказа хостов
RAID 1, 5, 6
От средних до больших производственных окружений
Если вы хотите использовать RAID 5/6 в кластере vSAN, то вам нужно принять во внимание требования к количеству хостов ESXi, которые минимально (и рекомендуемо) вам потребуются, чтобы удовлетворять политике FTT (Failures to tolerate):
Домены отказов (Fault Domains)
Домены отказов являются ключевым элементом повышения отказоустойчивости в vSAN, так как они позволяют интеллектуально распределять данные между хостами, чтобы выдерживать отказы, затрагивающие несколько компонентов (например, стойки или источники питания).
Домен отказов — это логическая группа хостов в кластере vSAN. По умолчанию vSAN рассматривает каждый хост как отдельный домен отказов. Однако в крупных развертываниях администраторы могут вручную настроить домены отказов, чтобы защитить данные от отказов, связанных со стойками или электропитанием.
В больших кластерах сбой всей стойки (или группы хостов) может привести к потере данных, если домены отказов не настроены. Например:
Без доменов отказов: vSAN может сохранить все реплики объекта на хостах внутри одной стойки, что приведет к риску потери данных в случае выхода стойки из строя.
С доменами отказов: vSAN распределяет реплики данных между разными стойками, значительно повышая защиту данных.
Лучшие практики для доменов отказов
Соответствие физической инфраструктуре: создавайте домены отказов на основе стоек, подключений источников питания или сетевого сегментирования.
Минимальные требования: для обеспечения производственной отказоустойчивости доменов требуется как минимум 3 домена отказов.
Размер кластера:
Для 6-8 хостов — настройте как минимум 3 домена отказов.
Для кластеров с 9 и более хостами — используйте 4 и более домена отказов для оптимальной защиты.
Тестирование и валидация: регулярно проверяйте конфигурацию доменов отказов, чтобы убедиться, что она соответствует политикам vSAN.
Число хостов ESXi в кластере
Сколько нужно Fault Domains
Назначение
3-5
Опционально или не нужны
Исполнение производственной нагрузки в рамках стойки
6-8
Минимум 3 домена отказов
Отказоустойчивость на уровне стойки или источника питания
9+
4 или более fault domains
Улучшенная защита на уровне стоек или датацентра
Архитектура дисковых групп vSAN OSA
Группы дисков (disk groups) являются строительными блоками хранилища VMware vSAN в архитектуре vSAN OSA. В архитектуре vSAN ESA дисковых групп больше нет (вместо них появился объект Storage Pool).
Дисковые группы vSAN OSA состоят из:
Яруса кэширования (Caching Tier): нужны для ускорения операций ввода-вывода.
Яруса емкости (Capacity Tier): хранит постоянные данные виртуальных машин.
Ярус кэширования (Caching Tier)
Ярус кэширования улучшает производительность чтения и записи. Для кэширования рекомендуется использовать диски NVMe или SSD, особенно в полностью флэш-конфигурациях (All-Flash).
Лучшие практики:
Выделяйте примерно 10% от общего объема VMDK-дисков машин для яруса кэширования в гибридных конфигурациях vSAN, однако при этом нужно учесть параметр политики FTT. Более подробно об этом написано тут. Для All-Flash конфигураций такой рекомендации нет, размер кэша на запись определяется профилем нагрузки (кэша на чтение там нет).
Используйте NVMe-диски корпоративного класса для высокопроизводительных нагрузок.
Ярус емкости (Capacity Tier)
Ярус емкости содержит основную часть данных и критически важен для масштабируемости. Полностью флэш-конфигурации (All-Flash) обеспечивают максимальную производительность, тогда как гибридные конфигурации (hybrid) являются более экономичным решением для менее требовательных нагрузок.
Лучшие практики:
Используйте полностью флэш-конфигурации для приложений, чувствительных к задержкам (latency).
Включайте дедупликацию и сжатие данных для оптимизации дискового пространства. При этом учтите требования и характер нагрузки - если у вас write-intensive нагрузка, то включение дедупликации может привести к замедлению работы системы.
Несколько групп дисков (Multiple Disk Groups)
Добавление нескольких групп дисков на каждом хосте улучшает отказоустойчивость и производительность.
Лучшие практики:
Настройте не менее двух групп дисков на хост.
Равномерно распределяйте рабочие нагрузки между группами дисков, чтобы избежать узких мест.
Конфигурация
Преимущества
Ограничения
Одна дисковая группа
Простая настройка для малых окружений
Ограниченная отказоустойчивость и производительность
Несколько дисковых групп
Улучшенная производительность и отказоустойчивость
Нужно больше аппаратных ресурсов для емкостей
VMware vSAN и блочные хранилища
Решения для организации блочных хранилищ, такие как Dell PowerStore и Unity, остаются популярными для традиционных ИТ-нагрузок. Вот как они выглядят в сравнении с vSAN:
Возможность
vSAN
Блочное хранилище (PowerStore/Unity)
Архитектура
Программно-определяемое хранилище в гиперконвергентной среде
На базе аппаратного комплекса системы хранения
Высокая доступность
Встроенная избыточность RAID 5/6
Расширенные функции отказоустойчивости (HA) с репликацией на уровне массива
Цена
Ниже для окружений VCF (VMware Cloud Foundation)
Высокая входная цена
Масштабируемость
Горизонтальная (путем добавления хостов ESXi)
Вертикальная (добавление новых массивов)
Рабочие нагрузки
Виртуальная инфраструктура
Физическая и виртуальная инфраструктура
Производительность
Оптимизирована для виртуальных машин
Оптимизирована для высокопроизводительных баз данных
Сильные и слабые стороны
Преимущества vSAN:
Глубокая интеграция с vSphere упрощает развертывание и управление.
Гибкость масштабирования за счет добавления хостов, а не выделенных массивов хранения.
Поддержка снапшотов и репликации для архитектуры vSAN ESA.
Экономически выгоден для организаций, уже использующих VMware.
Недостатки vSAN:
Зависимость от аппаратных ресурсов на уровне отдельных хостов, что может ограничивать масштабируемость.
Производительность может снижаться при некорректной конфигурации.
Преимущества блочного хранилища:
Высокая производительность для нагрузок с высокими IOPS, таких как транзакционные базы данных. При этом надо учесть, что vSAN также может обеспечивать высокую производительность при использовании соответствующего оборудования на правильно подобранном количестве хостов кластера.
Развитые функции, такие как снапшоты и репликация (с поддержкой на аппаратном уровне).
Недостатки блочного хранилища:
Меньшая гибкость по сравнению с гиперконвергентными решениями.
Более высокая стоимость и сложность при первоначальном развертывании. Однако также нужно учитывать и политику лицензирования Broadcom/VMware, где цена входа также может оказаться высокой (см. комментарий к этой статье).
Развертывание баз данных на VMware vSAN
Базы данных создают сложные паттерны ввода-вывода, требующие низкой задержки (latency) и высокой пропускной способности (throughput). vSAN удовлетворяет этим требованиям за счет кэширования и конфигураций RAID.
Политики хранения (Storage Policies)
Политики хранения vSAN позволяют точно контролировать производительность и доступность баз данных.
Лучшие практики:
Настройте параметр FTT (Failures to Tolerate) = 2 для критически важных баз данных.
Используйте RAID 5 или RAID 6 для экономии емкостей при защите данных, если вас устраивает производительность и latency.
Мониторинг и оптимизация
Регулярный мониторинг помогает поддерживать оптимальную производительность баз данных. Используйте продукт vRealize Operations для отслеживания таких метрик, как IOPS и latency.
Дункану Эппингу задали интересный вопрос: учитываются ли файлы, хранящиеся на общих хранилищах vSAN с включенным vSAN File Services, в максимальном количестве объектов (max object count)? Поскольку Дункан не обсуждал это в последние несколько лет, он решил сделать краткое напоминание.
С vSAN File Services файлы, которые пользователи хранят в своем файловом хранилище, размещаются внутри объекта vSAN. Сам объект учитывается при подсчёте максимального количества компонентов в кластере, но отдельные файлы в нем - конечно же, нет.
Что касается vSAN File Services, то для каждого созданного файлового хранилища необходимо выбрать политику. Эта политика будет применяться к объекту, который создаётся для файлового хранилища. Каждый объект, как и для дисков виртуальных машин, состоит из одного или нескольких компонентов. Именно эти компоненты и будут учитываться при подсчёте максимального количества компонентов, которое может быть в кластере vSAN.
Для одного узла vSAN ESA максимальное количество компонентов составляет 27 000, а для vSAN OSA – 9 000 компонентов на хост. Имейте в виду, что, например, RAID-1 и RAID-6 используют разное количество компонентов. Однако, как правило, это не должно быть большой проблемой для большинства клиентов, если только у вас не очень большая инфраструктура (или наоборот, небольшая, но вы на пределе возможностей по количеству хранилищ и т. д.).
В видео ниже показана демонстрация, которую Дункан проводил несколько лет назад, где исследуются эти компоненты в интерфейсе vSphere Client и с помощью CLI:
Обратите внимание, что в будущей версии vSAN в интерфейсе появится опция, которая поможет с операциями, описанными ниже.
Прежде всего, вам нужно проверить, реплицированы ли все данные. В некоторых случаях мы видим, что клиенты фиксируют данные (виртуальные машины) в одном месте без репликации, и эти виртуальные машины будут напрямую затронуты, если весь сайт будет переведен в режим обслуживания. Такие виртуальные машины необходимо выключить, либо нужно убедиться, что они перемещены на работающий узел, если требуется их дальнейшая работа. Обратите внимание, что если вы переключаете режимы "Preferred / Secondary", а множество ВМ привязаны к одному сайту, это может привести к значительному объему трафика синхронизации. Если эти виртуальные машины должны продолжать работать, возможно, стоит пересмотреть решение реплицировать их.
Вот шаги, которые Дункан рекомендует предпринять при переводе сайта в режим обслуживания:
Убедитесь, что vSAN Witness работает и находится в здоровом состоянии (проверьте соответствующие health checks).
Проверьте комплаенс виртуальных машин, которые реплицированы.
Настройте DRS (распределённый планировщик ресурсов) в режим "partially automated" или "manual" вместо "fully automated".
Вручную выполните vMotion всех виртуальных машин с сайта X на сайт Y.
Переведите каждый хост ESXi на сайте X в режим обслуживания с опцией "no data migration".
Выключите все хосты ESXi на сайте X.
Включите DRS снова в режиме "fully automated", чтобы среда на сайте Y оставалась сбалансированной.
Выполните все необходимые работы по обслуживанию.
Включите все хосты ESXi на сайте X.
Выведите каждый хост из режима обслуживания.
Обратите внимание, что виртуальные машины не будут автоматически возвращаться обратно, пока не завершится синхронизация для каждой конкретной виртуальной машины. DRS и vSAN учитывают состояние репликации! Кроме того, если виртуальные машины активно выполняют операции ввода-вывода во время перевода хостов сайта X в режим обслуживания, состояние данных, хранящихся на хостах сайта X, будет различаться. Эта проблема будет решена в будущем с помощью функции "site maintenance", как упоминалось в начале статьи.
Также для информации об обслуживании сети и ISL-соединения растянутого кластера vSAN прочитайте вот эту статью.
Компания Broadcom объявила о доступности включенной емкости VMware vSAN для VMware vSphere Foundation (VVF). Это обновление предоставляет корпоративное решение хранения класса HCI (гиперконвергированная инфраструктура) для запуска виртуальных машин и контейнеров. Теперь все новые лицензии VVF включают бесплатную емкость 0.25 TiB (тебибайт, аналог терабайта) отказоустойчивых хранилищ vSAN на каждое процессорное ядро (core) физического сервера. Это большой шаг вперед (2.5х) по сравнению с предыдущим предложением VVF, которое включало лишь пробный объём размером в 100 GiB (0.1 TiB).
Кроме того, для организаций, которым требуется дополнительная ёмкость, лицензии vSAN можно легко расширить с помощью аддонов.
Емкость vSAN, включённая в VMware vSphere Foundation (VVF), может быть агрегирована между всеми ядрами в рамках инфраструктуры заказчика. Например, если заказчик лицензирует два кластера vSphere VVF и использует vSAN только в одном из них, он может в нем использовать все предоставленные лицензией дисковые емкости от вычислительного кластера.
Наконец, ёмкость vSAN в VMware vSphere Foundation (VVF) теперь является добавочной, а не пробной. Это означает, что клиенту потребуется приобретать дополнительные объёмы только в случае, если включённой ёмкости vSAN недостаточно. Например, для хоста с 16 ядрами и необходимыми 8 TiB ёмкости потребуется приобрести дополнительно только 4 TiB vSAN, поскольку клиент уже располагает 4 TiB (16*0.25) встроенной ёмкости vSAN.
Расширенная ёмкость vSAN теперь доступна для всех новых покупок VMware vSphere Foundation (VVF). Планируете обновить свою инфраструктуру? Независимо от того, модернизирует ли ваша организация текущую инфраструктуру или готовится к будущему росту, обновлённый VVF предоставляет возможности для упрощения ИТ-операций, снижения затрат и поддержки ваших инициатив по цифровой трансформации.
Вильям Лам выложил интересный сценарий PowerCLI, который поможет вам получить информацию об использовании хранилищ и накладных расходах vSAN с использованием API.
В интерфейсе vSphere Client вы можете увидеть подробный анализ использования хранилища vSAN, включая различные системные накладные расходы, выбрав конкретный кластер vSAN, а затем перейдя в раздел Monitor->vSAN->Capacity, как показано на скриншоте ниже:
Различные конфигурации vSAN, такие как использование традиционной архитектуры хранения vSAN OSA или новой архитектуры vSAN Express Storage Architecture (ESA), а также активация функций, таких как дедупликация и сжатие vSAN, приводят к различным метрикам использования дискового пространства, которые отображаются в разделе информации.
Недавно у Вильяма спросили - а как получить информацию о накладных расходах, связанных с дедупликацией и сжатием vSAN, с использованием PowerCLI?
Хотя командлет PowerCLI vSAN Get-VsanSpaceUsage предоставляет множество метрик использования, отображаемых в интерфейсе vSphere, он не раскрывает все свойства.
Тем не менее, мы можем использовать PowerCLI для получения этой информации, используя базовый метод vSAN API, который предоставляет эти данные, в частности querySpaceUsage(). Как видно из документации по API, этот метод возвращает массив объектов типов использования vSAN, которые соответствуют данным, отображаемым в интерфейсе vSphere, с расшифровкой свойства ObjType.
Чтобы продемонстрировать использование этого API, Вильям создал пример PowerCLI-скрипта под названием vsanUsageAndOverheadInfo.ps1, в котором вам нужно просто обновить переменную $vsanCluster, указав имя нужного кластера vSAN.
После подключения к серверу vCenter вы можете просто выполнить этот скрипт, как показано ниже:
На этот раз Дункан рассказал о работе функции Federated Storage View для платформы VMware vSAN, а также для других традиционных систем хранения данных. Это представление позволит получить визуальную информацию о емкостях и производительности хранилищ, а также наглядно отобразит конфигурацию растянутого кластера (stretched cluster).
Поскольку это визуальный инструмент, Дункан записал обзорное видео, из которого вы сможете понять, как это работает:
На конференции Explore в Барселоне было сделано несколько объявлений и показаны элементы дорожной карты, которые не были представлены ранее в Лас-Вегасе. Так как сессии в Барселоне не записывались, Дункан Эппинг поделился функциями, о которых он говорил на Explore, и которые в настоящее время планируются для платформы VCF 9. Обратите внимание, что неизвестно, когда эти возможности станут общедоступными, и всегда существует вероятность, что они могут не выйти вообще.
Дункан сделал видео с демонстрацией обсуждаемых фич, чтобы вы могли их увидеть уже сегодня:
Для тех, кто не смотрит видео, ниже кратко описана функциональность, над которой VMware работает для VCF 9. Публичное объявление об этом пока не сделано, поэтому большого количества деталей не будет.
vSAN Automated Site Maintenance
В среде с растянутым кластером vSAN, когда вы хотите выполнить обслуживание узла, на сегодняшний день вам нужно переводить каждый хост в режим обслуживания по одному. Это не только административная/операционная нагрузка, но и увеличивает риск случайного перевода в режим обслуживания неправильных хостов. Более того, из-за последовательного подхода данные, хранящиеся на хосте 1 в сайте A, могут отличаться от данных на хосте 2 в сайте A, что создает несогласованность данных в пределах сайта.
Обычно это не является проблемой, так как система синхронизируется после завершения обслуживания, но если в это время выйдет из строя другой сайт с данными, существующий (несогласованный) набор данных не сможет быть использован для восстановления. Функция Site Maintenance не только упрощает перевод всего сайта в режим обслуживания, но и устраняет риск несогласованности данных, так как vSAN координирует процесс обслуживания и гарантирует согласованность данных в пределах сайта.
vSAN Site Takeover
Одной из функций, которой многим не хватало долгое время, была возможность сохранить работоспособность сайта в случае, если два из трех сайтов одновременно выходят из строя. Здесь на помощь приходит функция Site Takeover. Если вы оказались в ситуации, когда одновременно выходят из строя как Witness Site, так и сайт с данными, вы все равно хотите иметь возможность восстановить работу. Особенно учитывая, что на втором сайте, скорее всего, имеются здоровые объекты для каждой ВМ. Функция vSAN Site Takeover поможет в этом. Она позволит вручную (через интерфейс или скрипт) указать vSAN, что, несмотря на потерю кворума, локальный набор RAID для каждой затронутой ВМ должен быть снова доступен. После этого, конечно, vSphere HA даст хостам команду включить эти ВМ.
В то время, как организации по всему миру стремятся преобразовать свою инфраструктуру, чтобы соответствовать требованиям цифровой эпохи, гиперконвергентное хранилище стало ключевым инструментом для модернизации ИТ. Решение VMware vSAN находится на переднем плане этой революции, предлагая гибкое, масштабируемое и экономически эффективное решение для управления критически важными рабочими нагрузками.
Однако, когда ИТ-служба принимает решение о внедрении новой технологии, такой как гиперконвергентное хранилище, первый шаг может казаться сложным. Есть очевидные моменты для начала, такие как обновление инфраструктуры или новое развертывание ИТ в периферийной локации. Что касается рабочих нагрузок, то кривая внедрения — какие нагрузки выбрать для старта и как продвигаться дальше — может представлять собой некоторую загадку.
VMware недавно заказала исследование Key Workloads and Use Cases for Virtualized Storage у компании Enterprise Strategy Group, чтобы изучить роль гиперконвергентного хранилища, его преимущества и ключевые случаи применения, где оно оказывает значительное влияние. Рекомендации основаны на опросах сотен пользователей гиперконвергентных хранилищ, а также на тысячах реальных внедрений.
Почему хранилище является проблемой
В стремительно меняющемся цифровом мире управление хранилищем становится сложной задачей. Объемы данных растут экспоненциально из-за таких факторов, как искусственный интеллект, интернет вещей (IoT) и облачные приложения. Сложность и фрагментация хранилищ также увеличиваются, поскольку данные распределены между локальными, облачными и периферийными локациями. Традиционные архитектуры хранилищ на основе трехуровневых систем становятся дорогостоящими, трудными для масштабирования и требуют специальных навыков. Это создает острую необходимость в новом подходе, который упрощает хранение данных, одновременно удовлетворяя растущие потребности современных приложений.
Роль гиперконвергентного хранилища
VMware vSAN устраняет ограничения традиционного хранилища с помощью гиперконвергентного подхода, который объединяет ресурсы хранилища нескольких серверов в единую общую базу данных. Это упрощает управление, улучшает производительность и обеспечивает постепенное масштабирование. В отличие от традиционного хранилища, которое является жестким и дорогим, гиперконвергентное хранилище предлагает гибкую модель, позволяющую организациям масштабироваться вверх или вниз по мере необходимости и работать на серверах промышленного стандарта, снижая капитальные затраты. Гиперконвергентное хранилище позволяет организациям использовать единую программно-определяемую инфраструктуру и единый операционный подход для основного датацентра, периферийной инфраструктуры и публичного облака, что значительно упрощает управление в крупных масштабах. VMware имеет обширный список совместимого оборудования, сертифицированного для работы vSAN как в периферийных системах, так и в основных датацентрах.
Кроме того, vSAN ускоряет рутинные операции с хранилищем, такие как предоставление хранилища за минуты, а не за часы или дни, что делает его идеальным решением для быстро меняющихся условий. Тесная интеграция с облачной инфраструктурой VMware позволяет без проблем управлять как виртуальными машинами, так и контейнерами, что делает его универсальным решением для частных и гибридных облачных сред.
Ключевые рабочие нагрузки для гиперконвергентного хранилища
VMware vSAN подходит для различных сценариев использования, демонстрируя в них свою гибкость и масштабируемость:
1. Виртуальная инфраструктура рабочих столов (VDI): с увеличением числа удаленных сотрудников виртуальные рабочие столы стали критически важными. Однако VDI требует высокой производительности, линейного масштабирования и технологий для сокращения объема данных, чтобы оптимизировать затраты на хранение. vSAN решает эту задачу, предлагая масштабируемое решение. Его архитектура поддерживает высокую производительность и различные технологии сокращения данных для минимизации требований к объему хранения.
2. Бизнес-критичные приложения: для требовательных приложений баз данных, таких как Oracle, SQL Server и SAP HANA, vSAN обеспечивает высокую производительность и масштабируемость. Архитектура vSAN Express Storage Architecture предоставляет высокую производительность и устойчивость, даже с использованием кодирования ошибок RAID 5/6 для эффективности. vSAN также позволяет независимо масштабировать вычислительные ресурсы и ресурсы хранения, что полезно для рабочих нагрузок OTLP, которые часто растут быстрее по объему хранения, чем по вычислительным требованиям.
3. «Мейнстримные» рабочие нагрузки: веб-серверы, аварийное восстановление и защита данных. Это зрелые и широко используемые приложения, для которых требуется простое в управлении и недорогое хранилище. vSAN упрощает работу с этим хранилищем для разных рабочих нагрузок за счет управления на основе политик и снижает затраты, используя серверы промышленного стандарта для достижения необходимой производительности. Он также упрощает аварийное восстановление, позволяя реплицировать данные между сайтами без дорогостоящего специального оборудования.
4. Рабочие нагрузки на периферии (edge workloads): гиперконвергентные решения для хранилищ обеспечивают масштабируемость, гибкость и повышенную производительность на периферии с меньшими затратами, в компактном формате и, что особенно важно, в упрощенном форм-факторе серверов. Ключевые возможности vSAN включают:
возможность экономного масштабирования
поддержку нативного файлового и блочного хранения для уменьшения физического объема
высокую производительность благодаря поддержке NVMe-based TLC NAND flash для приложений с высокой чувствительностью к задержкам
централизованное управление всеми удаленными сайтами из одного инструмента
5. Облачные (cloud-native) рабочие нагрузки: гиперконвергентные решения для хранилищ также являются идеальным подходом, поскольку они поддерживают облачные хранилища и автоматизируют выделение хранилища для контейнерных рабочих нагрузок, что позволяет разработчикам получать доступ к необходимому хранилищу по мере необходимости, одновременно позволяя ИТ-администраторам управлять хранилищем как для контейнеров, так и для виртуальных машин на одной платформе.
Заключение
VMware vSAN — это не просто решение для хранения, это краеугольный камень ИТ-модернизации. Благодаря использованию виртуализации vSAN позволяет организациям создать гибкую, масштабируемую и эффективную инфраструктуру хранения, способную справиться с текущими и будущими нагрузками. Независимо от того, хотите ли вы оптимизировать рабочие столы VDI, улучшить производительность баз данных или модернизировать стратегию аварийного восстановления, VMware vSAN предоставляет комплексное решение для удовлетворения потребностей пользователей.
Интересную статью написал Tom Fojta в своем блоге, касающуюся возможного повреждения данных на платформе VMware vSAN 8.0 (включая пакеты обновлений Update 1 и 2). Согласно статье базы знаний KB 367589, такое повреждение может случиться, если в вашей виртуальной машине некоторые приложения используют набор инструкций AVX-512.
Пока известно, что эти инструкции используются СУБД IBM Db2 и
SAP HANA (однако и другие приложения могут их потенциально использовать).
Чтобы проверить, есть ли поддержка AVX-512 у вашего процессора, нужно выполнить следующую команду:
Чтобы решить проблему на уровне процессора (виртуальной машины), нужно отмаскировать некоторые флаги в наборе инструкций CPU. Вы также можете решить проблему и на уровне приложений (для этого обратитесь к KB, указанной выше).
Итак, нужно добавить в Advanced Configuration Parameters виртуальной машины следующие строчки для проблемных инструкций AVX-512:
Сделать это можно и через интерфейс vSphere Client или Cloud Director - там нужно создать политику Compute Policy для виртуальных машин (в интерфейсе она называется VM Sizing Policy) с расширенными параметрами:
Дункан Эппинг написал несколько статей о защите данных VMware vSAN, и в последнем посте был представлен хороший демонстрационный пример vSAN Data Protection. В комментариях к оригинальному посту Дункана был задан очень хороший вопрос, касающийся растянутых кластеров vSAN. В основном, он был о том, распространяются ли снапшоты на разные локации. Это отличный вопрос, так как есть несколько моментов, которые, вероятно, стоит прояснить еще раз.
vSAN Data Protection основывается на возможности создания снимков (snapshots), которая была введена с vSAN ESA. Эта функция в ESA значительно отличается от того, как это было реализовано в vSAN OSA или VMFS. В vSAN OSA и VMFS при создании снимка создается новый объект (в vSAN) или файл (в файловой системе VMFS). С vSAN ESA это больше не так, так как теперь не создаются дополнительные файлы или объекты, а вместо этого создается копия структуры метаданных. Именно поэтому снапшоты на vSAN ESA работают гораздо лучше, чем для vSAN OSA или VMFS, так как больше не нужно проходить через множество файлов или объектов для чтения данных. Теперь просто используется тот же объект и задействуется структура метаданных для отслеживания изменений.
В vSAN объекты (и их компоненты) размещаются по всему кластеру в соответствии с тем, что указано в политике хранения, связанной с объектом или виртуальной машиной. Другими словами, если политика FTT=1 и RAID-1, то вы увидите две копии данных. Если политика определяет, что данные должны быть растянуты между локациями и защищены RAID-5 в каждой локации, тогда вы увидите конфигурацию RAID-1 между сайтами и конфигурацию RAID-5 внутри каждого сайта. Поскольку снапшоты vSAN ESA являются неотъемлемой частью объекта, они автоматически следуют всем требованиям, определенным в политике. Другими словами, если политика установлена как "stretched", то снимок также будет автоматически растянутым.
Есть один нюанс, который автор хочет отметить, и для этого нужно показать диаграмму:
На диаграмме ниже показан модуль Data Protection Appliance, также известный как менеджер снимков (snapshot manager appliance). Как вы видите, на диаграмме указано "метаданные отделены от модуля" (metadata decoupled from appliance), и оно как-то связано с объектом глобального пространства имен. Этот объект глобального пространства имен хранит все детали защищенных виртуальных машин (и не только). Как вы можете догадаться, как менеджер снимков, так и объект глобального пространства имен должны также быть растянутыми. Для объекта глобального пространства имен это означает, что вам нужно убедиться, что политика по умолчанию для хранилища данных установлена как "stretched", и, конечно, для менеджера снапшотов вы можете просто выбрать правильную политику при его развертывании. В любом случае убедитесь, что политика по умолчанию для хранилища данных соответствует политике аварийного восстановления и защиты данных.
Блогер Дункан Эппинг записал отличное видео по теме защиты данных кластеров отказоустойчивости средствами продукта VMware vSAN Data Protection для VMware Explore в Лас-Вегасе и Барселоне. Так как ему поступали вопросы от людей по поводу защиты данных vSAN, он решил поделиться демо на YouTube и опубликовать его в своем блоге. Ранее он выпустил несколько статей о защите данных vSAN и стал замечать, что некоторые клиенты начинают тестировать эту функцию и даже использовать её в производственных средах, где это возможно. Как мы также писали ранее, решение vSAN Data Protection доступно только только в рамках архитектуры vSAN ESA, так как она использует новые возможности создания моментальных снимков (снапшотов). Также полностью новый интерфейс был представлен в средстве управления Snap Manager Appliance. Обязательно скачайте, разверните и настройте его в первую очередь.
Собственно, само демо VMware vSAN Data Protection, которое стоит посмотреть, если вы интересуетесь защитой данных в рамках виртуальной инфраструктуры VMware vSphere и vSAN:
В последнем релизе VMware vSAN 8.0 Update 3, утилита vSAN IO Trip Analyzer была существенно доработана. В чем именно заключается это улучшение? Теперь IO Trip Analyzer может быть включен для нескольких ВМ одновременно. Это особенно полезно при устранении проблем с производительностью комплексного сервиса, состоящего из нескольких ВМ.
Данное улучшение позволяет вам одновременно мониторить несколько ВМ и анализировать, на каком уровне у каждой из выбранных ВМ возникает задержка (latency). Обратите внимание, что это улучшение работает как для vSAN ESA, так и для vSAN OSA.
Дункан Эппинг записал на эту тему интересное обзорное видео:
Начиная с обновления VMware vSphere 8.0 Update 2, поддержка опции "None - Stretched Cluster" в политике хранения (Storage Policy) для конфигурации vSAN Stretched Cluster была удалена. Причина этого заключается в том, что данная опция часто приводила к ситуациям, когда клиенты ошибочно ее использовали, и при сбое обнаруживали, что некоторые виртуальные машины перестали работать.
Причиной остановки работы виртуальных машин было то, что в соответствии с этой политикой все компоненты объекта размещались в одном месте, но не было гарантии, что все объекты одной виртуальной машины будут находиться на одном сайте. Таким образом, могла возникнуть ситуация, показанная ниже, когда виртуальная машина работает на сайте B, один из ее объектов данных хранится на сайте A, другой объект данных на сайте B, и, кроме того, свидетель также находится в сайте B. К сожалению, у некоторых клиентов это приводило к странному поведению, если возникали проблемы с сетью между Сайтами A и B.
Платформа VMware vSAN 8 Express Storage Architecture (ESA), работающая на процессорах Intel Xeon Scalable 4-го поколения, представляет собой современное решение для гиперконвергентной инфраструктуры (HCI), способствующее консолидации серверов и поддержке высокопроизводительных рабочих нагрузок, включая ИИ.
Преимущества работы vSAN 8 ESA на Intel Xeon 4 поколения
Оптимизация хранения: в отличие от двухуровневой архитектуры предыдущих версий, ESA использует одноуровневую систему с NVMe-накопителями на базе TLC флэш-памяти, что позволяет увеличить емкость и производительность хранилища. Это снижает расходы на хранение данных, благодаря более эффективной компрессии данных и встроенной системе снапшотов.
Скорость и производительность: VMware vSAN 8 ESA, в сочетании с Intel Xeon 4, значительно ускоряет работу как традиционных, так и современных приложений. Интеграция с новейшими технологиями Intel, такими как AMX (Advanced Matrix Extensions) и AVX-512 (Advanced Vector Extensions), увеличивает количество транзакций и снижает время отклика при обработке больших данных.
Снижение задержек и повышение производительности: в тестах ESA показала до 6.2-кратного роста производительности и до 7.1-кратного снижения задержек по сравнению с предыдущими поколениями vSAN и Intel Xeon. Это позволяет консолидировать критически важные рабочие нагрузки, такие как базы данных SQL и VDI, без снижения производительности.
Поддержка AI и современных рабочих нагрузок
Для обеспечения поддержки AI-приложений, vSAN 8 ESA, благодаря новейшим процессорам Intel Xeon, справляется с обработкой больших объемов данных, необходимых для глубокого обучения и инференса, особенно в задачах классификации изображений и обработки естественного языка. Тесты показали до 9-кратного увеличения производительности при использовании INT8 в задачах машинного обучения.
Снижение затрат и повышение эффективности
За счет высокой плотности виртуальных машин и оптимизированного использования ресурсов, VMware vSAN 8 ESA позволяет сократить инфраструктурные расходы, связанные с оборудованием и энергопотреблением. Использование RAID-6 на уровне кластера с производительностью RAID-1 повышает надежность и безопасность данных без ущерба для производительности.
Заключение
VMware vSAN 8 ESA, в сочетании с процессорами Intel Xeon четвертого поколения, представляет собой мощное и экономичное решение для поддержки как традиционных, так и современных рабочих нагрузок, включая AI-приложения. Это позволяет компаниям модернизировать свою инфраструктуру, улучшить производительность и оптимизировать использование ресурсов, что особенно важно в условиях сокращающихся ИТ-бюджетов и растущих требований к производительности приложений.
Компания VMware выпустила интересный документ "Troubleshooting vSAN Performance", в котором рассматриваются вопросы решения проблем в области производительности отказоустойчивых хранилищ VMware vSAN.
Статья на VMware Core разделена на несколько ключевых разделов:
1. Определение проблемы: начальный этап, включающий идентификацию проблемы и её масштаба. 2. Обзор конфигурации: анализ текущей конфигурации vSAN, включая параметры хранилища, сеть и оборудование. 3. Анализ рабочих нагрузок: изучение типов нагрузок, которые могут влиять на производительность. 4. Метрики и инструменты: описание ключевых метрик и инструментов для мониторинга и диагностики, таких как vSAN Observer и vRealize Operations. 5. Рекомендации по оптимизации: практические советы по настройке и оптимизации для повышения производительности, включая изменения в программных и аппаратных компонентах.
Каждый из этих этапов направлен на систематическое выявление и устранение узких мест в производительности vSAN. Статья предлагает практические примеры и сценарии для понимания и решения типичных проблем.
Стратегии защиты данных часто включают снапшоты в той или иной форме. Они могут быть важной частью комплексной стратегии защиты данных 3-2-1, а также дополнять официальные практики защиты данных, делая операции восстановления более удобными. Однако снапшоты могут создавать технические проблемы и ограничения, которые влияют на их использование в производственных средах.
С выпуском VMware vSAN 8 U3 в составе Cloud Foundation 5.2, компания VMware представила защиту данных vSAN. Основанная на революционной архитектуре vSAN Express Storage Architecture (ESA), она представляет собой значительное изменение в способности клиентов защищать, восстанавливать и клонировать виртуальные машины с использованием знакомого им программного обеспечения.
Новые возможности с улучшенными снапшотами
Основа защиты данных vSAN заключается в механизме создания снапшотов, представленного в составе vSAN ESA. Дизайн vSAN ESA позволил инженерам разработать совершенно новый механизм создания снапшотов с нуля, отказавшись от старого подхода на основе redo-log, который использовался в оригинальной архитектуре хранения данных. Новый механизм создания снапшотов в vSAN ESA основан на запатентованной лог-структурированной файловой системе (LFS) и высокоэффективных структурах метаданных.
Различные формы лог-структурированных файловых систем широко распространены сегодня, но VMware имеет уникальную историю с этой технологией, так как Мендель Розенблюм, соучредитель VMware, первым внедрил лог-структурированную файловую систему еще в 1992 году. Файловая система LFS в vSAN новаторская по нескольким направлениям. Она реализована на основе объектов, что позволяет добиться более тонкого уровня управления по сравнению с монолитными подходами. Она также распределенная, что обеспечивает масштабируемость и гибкость, обычно ассоциируемые с распределенными системами.
Механизм создания снапшотов в vSAN ESA позволяет хранить снапшоты практически без потери производительности. Преимущества аналогичны снапшотам на основе массивов (storage-based snapshots), которые часто хвалят за их эффективность и производительность. Но снапшоты vSAN ESA имеют некоторые отличительные преимущества перед снапшотами на основе массивов, которые существенно влияют на их полезность в производственной среде.
Проблемы снапшотов на основе массивов
Наиболее распространенный способ представления ресурсов емкости в хранилищах — через тома LUN. В сочетании с кластерной файловой системой, такой как VMFS, это позволяет разместить десятки или сотни различных ВМ и их файлов на одном LUN для использования хостами vSphere, подключенными к хранилищу данных. Хотя это работало достаточно хорошо в течение многих лет, но у этого подхода есть некоторые присущие проблемы.
1. Единица управления. Хотя вас могут интересовать несколько конкретных ВМ в LUN, массив рассматривает данные в LUN целиком. Снапшот на основе массива захватывает все измененные данные в LUN, включая ВМ, которые вы, возможно, не хотели бы захватывать. Это может увеличить потребление емкости и усложнить восстановление.
2. Создание и координация снапшотов. Неестественная единица управления, предоставляемая LUN, — это лишь часть проблемы при создании снапшотов. Механизмы создания снапшотов на основе массива не имеют осведомленности о самой ВМ или о том, когда операции ввода-вывода инициированы ВМ. Дополнительные операции могут потребоваться для захвата снимка всего LUN, чтобы ввод-вывод сохранялся в согласованном состоянии. Это означает, что в зависимости от обстоятельств гипервизор может приостанавливать каждую ВМ, использующую этот LUN, чтобы массив мог захватить ВМ в согласованном состоянии. Это требует времени и точной координации.
3. Восстановление снапшотов. Восстановление ВМ до предыдущего состояния с использованием снапшота на основе массива обычно включает несколько шагов для временного представления LUN хостам без вмешательства в существующие ВМ. Текущую ВМ нужно удалить, а старую ВМ скопировать в новое место и перерегистрировать в vCenter Server, после чего отсоединить временный LUN и выполнить другие операции очистки. Это процесс, который может быть трудоемким и подверженным ошибкам.
Привязка к LUN и отсутствие осведомленности об операциях ввода-вывода ВМ часто приводят к увеличению сложности операций. vSAN решает задачу создания снапшотов более эффективным способом.
Более эффективный подход к созданию снимков данных
Снимки в vSAN ESA обладают возможностями, аналогичными снапшотам на основе массивов, но без многих проблем. Как отмечено в посте vSAN Objects and Components Revisited, vSAN хранит данные, аналогичные объектному хранилищу. vSAN использует набор отдельных объектов, представляющих аспекты ВМ, такие как виртуальные диски (VMDK). Эта меньшая гранулярность данных в vSAN обеспечивает лучшую доступность, масштабируемость и управление. Но эта модель имеет значительное преимущество при создании снапшотов ВМ.
Единица управления: снапшоты ESA создаются для каждой ВМ. Пользователи сфокусированы именно на машинах, поэтому имеет смысл делать это таким образом. При создании снимков ESA изменения, отслеживаемые после создания снапшота, касаются только ВМ с этим снапшотом.
Создание и координация снапшотов: поскольку vSAN является частью гипервизора, он полностью видит и контролирует путь данных ВМ. Это позволяет механизму создания снапшотов создавать их, гарантируя, что данные фиксируются в состоянии согласованности после сбоя без остановки ВМ. Это быстро и совершенно прозрачно для пользователя.
Восстановление снапшотов: независимо от того, восстанавливаете ли вы существующую ВМ на предыдущий момент времени или восстанавливаете удаленную ВМ, процесс восстановления прост и интуитивно понятен. Восстанавливайте ВМ легко прямо в интерфейсе vSphere в vCenter Server.
Снапшоты, выполненные на уровне ВМ, являются более значимой единицей управления для клиентов. Этот подход не только более интуитивен, но и намного эффективнее, так как делает снапшоты только тех ВМ, которые вам нужны, а не всё на томе LUN.
Лучший подход к защите данных
Однако быстрый и масштабируемый механизм создания снапшотов был недостаточным. Клиенты хотели использовать снапшоты для восстановления и манипуляции данными, а также планировать задачи и сохранять снапшоты автоматически. Они хотели сделать это легко и интегрировать со средствами vCenter Server. Это то, что VMware реализовала в vSAN Data Protection.
Защита данных vSAN предоставляет клиентам то, что они всегда хотели
Легкий в использовании, эффективный и интегрированный способ защиты данных, встроенный в уже известное программное обеспечение. VMware не только достигли этого, но и благодаря архитектуре внедрили инновации, делающие его удобным и гибким.
Экстремально быстрые операции
Cнапшоты на уровне ВМ делают операции простыми и быстрыми. vSAN контролирует ввод-вывод по всей цепочке, минимизируя задержки при создании и восстановлении снимков.
Масштабируемость снапшотов
vSAN Data Protection поддерживает до 200 снапшотов на ВМ, преодолевая ограничение в 32 снапшота при использовании традиционных методов в vCenter Server и API на основе VADP.
Динамическая группировка
Основой использования vSAN Data Protection являются «группы защиты» (protection groups). Это логические контейнеры, в которых можно группировать несколько ВМ для легкого и повторяемого создания и управления снапшотами. В пределах группы защиты можно определить политику, например, частоту защиты и расписание хранения. ВМ могут быть назначены статически или динамически с использованием символов подстановки «*» и «?». Например, назначение членства с помощью «SQL-*» позволяет защитить все ВМ с именем, включающим «SQL-».
Опциональная неизменяемость данных
Снапшоты могут быть сделаны неизменяемыми, что означает, что снапшот нельзя изменить или удалить. Эта опция, доступная в настройках группы защиты, обеспечивает базовую защиту от злонамеренных действий и интегрируется с VMware Live Cyber Recovery (VLCR), комплексным решением для защиты от вымогателей.
Защита системы
Снимки могут увеличивать потребление емкости, если скорость изменения данных и частота создания снапшотов высоки. Для защиты от непреднамеренных проблем с потреблением данных vSAN Data Protection приостанавливает создание снапшотов, если достигнуто 70% емкости кластера. Также автоматически истекают снапшоты пытающиеся превысить лимит в 200 снимков на ВМ.
Практическое использование vSAN Data Protection
Хотя технология впечатляет, важен результат. Легкая защита должна сочетаться с легким оперативным восстановлением для использования в реальных сценариях. Вот несколько примеров использования vSAN Data Protection:
1. Возврат существующих ВМ к предыдущему состоянию. Быстрое восстановление ВМ, которые могли быть случайно неправильно настроены, неудачно обновлены или подверглись подозрительной деятельности. 2. Восстановление удаленных ВМ. Легко восстановите ВМ, которые больше не зарегистрированы в vCenter Server, что помогает защититься от случайного или злонамеренного удаления ВМ. 3. Клонирование ВМ. Быстрое создание клона ВМ из снимка, что может быть простым и эффективным способом иметь несколько копий данных. 4. Защита от вымогателей. vSAN Data Protection можно использовать с VMware Live Cyber Recovery (VLCR), чтобы легко создать комплексное решение для защиты и восстановления от вымогателей.
На данный момент vSAN Data Protection ограничивается предоставлением локальной защиты ВМ. Но это может быть идеальным дополнением к существующим и более комплексным стратегиям резервного копирования 3-2-1. Для получения дополнительной информации и ответов на часто задаваемые вопросы, ознакомьтесь с vSAN Data Protection FAQs.
Заключение
vSAN Data Protection представляет собой лучший способ защиты и восстановления виртуальных машин. Она использует возможности vSAN ESA, чтобы предоставить преимущества, которые трудно достичь с внешними подходами на основе массивов. И, что самое главное, vSAN Data Protection уже доступна в вашей лицензии VCF.
В интересах обеспечения удовлетворенности клиентов, компания VMware решила продлить общий период поддержки (general support) для продуктов VMware vSphere 7.x и VMware vSAN 7.x. Изначально установленная дата окончания общей поддержки (End of General Support, EoGS) была назначена на 2 апреля 2025 года, но теперь она продлена на 6 месяцев, до 2 октября 2025 года.
Это продление общего периода поддержки предоставляет клиентам большую гибкость в планировании будущих обновлений. VMware стремится создать надежную среду поддержки и предоставить достаточно времени для стратегического планирования с учетом изменяющихся потребностей клиентов.
Резюме ключевых дат:
Версия продукта
Дата первичной доступности (General Availability)
Ранее объявленное окончание поддержки (EoGS)
Новая дата EoGS после продления
Дата End of Technical Guidance (EoTG)*
ESXi 7.x
2 апреля 2020 года
2 апреля 2025 года
2 октября 2025 года
2 апреля 2027 года
vCenter 7.x
2 апреля 2020 года
2 апреля 2025 года
2 октября 2025 года
2 апреля 2027 года
vSAN 7.x
2 апреля 2020 года
2 апреля 2025 года
2 октября 2025 года
2 апреля 2027 года
* Применимо к поддержке, приобретенной до 6 мая 2024 года.
Для получения более подробной информации или вопросов, пожалуйста, свяжитесь с вашим представителем VMware, партнером-реселлером Broadcom или службой поддержки VMware.
После неудачного развертывания VCF 5.0 у автора блога vronin.nl остался vSAN Datastore на первом хосте в кластере, что блокировало повторную попытку развертывания.
В этом состоянии vSAN Datastore не может быть удален. Если попытаться его удалить через ESXi Host Client, опция будет неактивна:
Чтобы удалить хранилище данных vSAN и разделы дисков, сначала нужно подключиться по SSH к хосту и получить Sub-Cluster Master UUID кластера:
Далее копируем этот Sub-Cluster Master UUID в следующую команду:
В ESXi Host Client будет показываться, что датастора больше нет:
Для двойной проверки выполняем следующие команды в консоли ESXi:
esxcli vsan cluster list
esxcli vsan storage list
По результатам вывода команд, на хосте не настроены кластеры или хранилища vSAN. После этого повторная попытка развертывания кластера управления VCF будет успешной.
Дункан Эппинг опубликовал интересный пост, касающийся изменений в интерфейсе vSAN Data Protection, произошедших в новой версии пакета обновлений VMware vSphere 8 Update 3.
Впервые развернув vSphere/vSAN 8.0 U3, он сразу же начал искать интерфейс vSAN Data Protection. Он не смог его найти, но подумал, что это из-за использования какой-то странной альфа-версии продукта. Теперь, когда продукт вышел, эта функция должна быть доступна из коробки, верно?
Нет, не так. Вам нужно развернуть виртуальный модуль (Virtual Appliance), чтобы эта функция появилась в интерфейсе. Этот модуль можно найти в разделе «Drivers and Tools» в разделе загрузок vSphere Hypervisor, который находится по основными ссылками на дистрибутивы vSphere. Он называется «VMware vSAN Snapshot Service Appliance». Текущая версия называется «snapservice_appliance-8.0.3.0-24057802_OVF10.ova». Вам нужно развернуть этот OVA, при это настоятельно рекомендуется запросить для него DNS-имя и правильно зарегистрировать его. Автор возился с файлом hosts на VCSA и забыл добавить имя в локальный файл hosts на своем ноутбуке, из-за чего возникли странные проблемы.
Еще одна вещь, на которую стоит обратить внимание: документация предлагает загрузить сертификаты и скопировать текст для модуля. Это не то, что большинство из нас делает ежедневно. Вы можете просто открыть веб-браузер и использовать следующий URL «https://<имя вашего сервера vCenter>/certs/download.zip», чтобы загрузить сертификаты, а затем распаковать загруженный файл. Более подробную информацию можно найти здесь.
Внутри будут сертификаты, и если вы откроете сертификат в подходящем текстовом редакторе, вы сможете скопировать/вставить его в экран развертывания для OVA.
Теперь, когда вы развернули OVA и все правильно настроено, вы должны увидеть успешное выполнение задачи, а точнее две: загрузка плагина и развертывание плагина, как показано на следующем скриншоте.
Если вы получите сообщение об ошибке «error downloading plug-in», вероятно, это связано с одной из двух причин:
Файлы DNS / Hosts настроены некорректно, в результате чего URL недоступен. Убедитесь, что вы можете разрешить URL.
Отпечаток (thumbprint) сертификата был неправильно скопирован/вставлен. Здесь есть целый раздел по устранению этой проблемы.
На прошлой неделе блогер Дункан Эппинг получил вопрос о vSAN Stretched Cluster, который заставил его задуматься. Человек, задавший этот вопрос, рассматривал несколько сценариев отказа, некоторые из которых Дункан уже рассматривал ранее. Вопрос, который ему задали, заключается в том, что должно произойти в следующем сценарии, показанном на диаграмме, когда разрывается связь между предпочтительным сайтом (Site A) и сайтом свидетеля (Witness):
Ответ, по крайней мере, он так думал, был прост: все виртуальные машины продолжат работать, или, иначе говоря, не будет никакого воздействия на работу vSAN. Во время теста, действительно, результат, который он зафиксировал, а также документированный в Stretched Clustering Guide и PoC Guide, был таким же: виртуальные машины продолжали работать. Однако, он обратил внимание, что когда эта ситуация происходит, и действительно связь между сайтом А и Witness теряется, свидетель почему-то больше не является частью кластера, что не то, что ожидалось. Причина, по которой он не ожидал этого, заключается в том, что если произойдет второй сбой, и, например, связь между сайтом А и сайтом B пропадет, это напрямую повлияет на все виртуальные машины. По крайней мере, так он думал.
Однако, когда был вызван этот второй сбой и отключена связь между сайтом А и сайтом В, Дункан увидел, что Witness снова появляется в кластере сразу же, а объекты свидетеля переходят из состояния «absent» в состояние «active», и, что более важно, все виртуальные машины продолжают работать. Причина, по которой это происходит, довольно проста: при запуске такой конфигурации у vSAN есть «leader» и «backup», и они каждый работают в отдельном домене отказа. И лидер, и резерв должны иметь возможность общаться с Witness для корректного функционирования. Если связь между сайтом А и Witness пропадает, то либо лидер, либо резерв больше не могут общаться со свидетелем, и свидетель исключается из кластера.
Так почему же свидетель возвращается к работе, когда вызывается второй сбой? Когда вызывается второй сбой, лидер перезапускается на сайте В (так как сайт А считается потерянным), а резерв уже работает на сайте В. Поскольку и лидер, и резерв снова могут общаться со свидетелем, свидетель возвращается к работе, и все компоненты кластера автоматически и мгновенно восстанавливаются. Это означает, что даже если связь между сайтом А и сайтом В прервана после того, как свидетель был исключен из кластера, все виртуальные машины остаются доступными, так как свидетель снова включается в работу кластера для обеспечения доступности рабочей нагрузки.
Калькулятор лицензий для VCF, VVF и vSAN позволяет вводить данные о примерных конфигурациях виртуальной среды для проведения различных симуляций с целью определения необходимых подписных лицензий для VCF, VVF и vSAN. Более подробная информация об этом процессе изложена в KB 96426.
Не так давно VMware создала калькулятор лицензий, чтобы пользователи могли ознакомиться с новым упрощённым портфелем подписок (напомним, что perpetual лицензий больше нет) для решений с VMware Cloud Foundation (VCF), VMware vSphere Foundation (VVF) и VMware vSAN. Этот калькулятор можно использовать для симуляции различных сценариев лицензирования. Перед использованием калькулятора обратитесь к статье базы знаний KB 95727, чтобы узнать основы и принципы лицензирования продуктов VCF, VVF и vSAN.
Как использовать калькулятор лицензий
Необходимые условия:
Загрузите вложения к статье KB, извлеките CSV-файл шаблона и скрипт. Скрипт принимает файл CSV, который представляет собой исходный файл для ввода данных различных конфигураций при проведении симуляций.
При использовании шаблона CSV, пожалуйста, учтите следующие правила:
1. Не переименовывайте колонку ID, так как на неё ссылается скрипт.
2. Каждая строка представляет собой отдельный кластер vSphere и/или vSAN.
Введите данные для каждого из идентификаторов колонок по порядку в каждой строке. Описания идентификаторов колонок и примеры данных приведены в таблице ниже.
#
Column ID
Описание
Пример данных
1
CLUSTER_NAME
Имя кластерной конфигурации
CL1
2
NUMBER_OF_HOSTS
Число хостов в этой конфигурации
4
3
NUMBER_OF_CPU_SOCKETS
Число сокетов CPU на хост
2
4
NUMBER_OF_CPU_CORES_PER_ SOCKET
Число физических ядер CPU на сокет
18
5
VSAN_ENABLED_CLUSTER
Если используется значение Yes, то это будет расчет кластера хранилищ vSAN, если No - то это будет вычислительный кластер
Yes
6
TOTAL_RAW_VSAN_TIB
Число террабайт (TiB), требующееся для конфигурации кластера vSAN
13.9
Инструкции по использованию калькулятора VCF/VVF
# Подключите исходную функцию
. ./vcf-vvf-calculator.ps1
# Пример использования калькулятора для VCF
Get-VCFandVVFCalculator -InputFile sample-input.csv -DeploymentType VCF
# Пример использования калькулятора для VVF
Get-VCFandVVFCalculator -InputFile sample-input.csv -DeploymentType VCF
# Пример использования калькулятора для VCF и экспорт результатов в CSV
Get-VCFandVVFCalculator -InputFile sample-input.csv -DeploymentType VCF - Csv
# Пример использования калькулятора для VVF и экспорт результатов в CSV
Get-VCFandVVFCalculator -InputFile sample-input.csv -DeploymentType VVF - Csv
Пример вывода
Вот пример вывода после использования калькулятора лицензий для VVF и vSAN. Обратите внимание, что внизу вывода указано общее количество требуемых лицензий на ядра VVF и TiB vSAN.
В таблице ниже описаны все колонки в разделах VVF/VCF Compute и vSAN:
Имя колонки
Описание
Требуемые лицензии VCF Compute для кластера
CLUSTER
Название кластера
NUM_HOSTS
Количество хостов в кластере
NUM_CPU_SOCKETS_PER_HOST
Количество CPU-сокетов на хосте
NUM_CPU_CORES_PER_SOCKET
Количество ядер в каждом CPU-сокете на хосте
FOUNDATION_LICENSE_CORE_COUNT
Количество требуемых лицензий на ядра для лицензии Foundation в кластере.
Требуемые лицензии vSAN на кластер
CLUSTER
Название кластера
NUM_HOSTS
Количество хостов в кластере
NUM_CPU_SOCKETS
Количество CPU-сокетов в кластере
NUM_CPU_CORES
Количество ядер в кластере
FOUNDATION_LICENSE_CORE_COUNT
Количество лицензий на ядра из лицензирования Foundation в кластере
ENTITLED_VSAN_LICENSE_TIB_COUNT
Эта колонка отображает количество лицензий TiB, полученных для лицензирования Foundation в кластере
REQUIRED_VSAN_TIB_CAPACITY
Эта колонка отображает желаемую емкость в TiB для кластера
VSAN_LICENSE_TIB_COUNT
Эта колонка отображает количество требуемых лицензий TiB для кластера, учитывая терабайты полученные по модели Foundation. Если значение отрицательное или равно 0, это означает, что количество полученных TiB больше или равно требуемым. Дополнительное лицензирование не требуется, и избыточная емкость может быть агрегирована. Если значение положительное, это означает, что количество требуемых лицензий TiB больше полученных. Требуется дополнительное лицензирование (Add-on Licenses).
Загрузить калькулятор лицензий VMware Cloud Foundation, VMware vSphere Foundation и VMware vSAN можно по этой ссылке.
Интересный пост от John Nicholson о размещении сервера VMware vCenter в растянутом кластере vSAN Stretched Cluster. В идеальном мире у вас есть управляющий кластер, который содержит ваш сервер vCenter, а вы управляете каждым кластером из него. Но, к сожалению, в реальном мире всё сложнее:
Необходимо тоже как-то управлять управляющим кластером.
Иногда нужно, чтобы кластер был полностью автономным.
Можно ли запустить сервер vCenter на управляемом им кластере?
Надо сказать, что всегда полностью поддерживался запуск сервера vCenter на управляемом им кластере. Высокая доступность (HA) в этом случае всё равно будет работать. Если вам нужно более подробно изучить этот вопрос, этот короткий видеоролик ответит на ваш вопрос.
Итак, какой лучший совет при размещении vCenter?
Используйте ephemeral port groups для всех управляющих сетей. Это предотвратит проблемы chicken-egg с виртуальными распределенными коммутаторами (vDS), которые раздражают, но с которыми можно справиться.
Автор предпочитает использовать правила DRS типа "SHOULD", чтобы vCenter "как правило" находился на узле с наименьшим номером или IP-адресом в кластере. Это полезно в ситуации, когда vCenter работает с ошибками и службы управления не запускаются, так как это упрощает поиск узла, на котором он работает. Обязательно избегайте использования правил "MUST" для этого, так как это не позволит vCenter запуститься в другом месте в случае сбоя данного узла.
А как насчет распределенного кластера? Например, у вас есть отдельный хост для запуска сервера Witness, стоит ли размещать его там?
Вот такое делать не рекомендуется. Всегда предпочтительнее запускать сервер vCenter там, где он будет защищен с помощью высокой доступности (HA), и ему не потребуется выключение для обновления хоста. Растянутые кластеры vSAN всегда поддерживают операции active/active, и многие клиенты часто настраивают их так, чтобы большинство рабочих нагрузок выполнялись в предпочтительном датацентре (preferred site). Если вы используете эту конфигурацию, рекомендуется запускать сервер vCenter во вторичном (secondary) местоположении по нескольким причинам:
В случае сбоя основного сайта, вы не останетесь «операционно слепым», поскольку HA со стороны vCenter будет активирована и восстановит рабочие нагрузки. Это снизит любые операционные простои, которые могли бы произойти в течение нескольких минут, пока сервер vCenter запустится на резервном узле основного сайта.
Он будет действовать как указатель на состояние здоровья вторичного датацентра. В целом полезно иметь какую-то рабочую нагрузку на вторичном сайте, чтобы понимать, как будут работать эти хосты, даже если это будет относительно легкая нагрузка.
Heath Johnson из VMware представляет обзор решения VMware Cloud Foundation (VCF), которое включает в себя комплексное решение для частных облачных данных, объединяющее вычислительные мощности, хранилища и сетевые технологии. В основе решения лежат гипервизор ESXi и центр управления vCenter, образующие vSphere, интегрированные в VMware Cloud Foundation. Также в состав входят продукты для программно-определяемого хранения данных vSAN и программно-определяемых сетей NSX, которые позволяют создавать виртуальные частные облака.
Для управления операциями в облаке используется пакет продуктов vRealize, который обеспечивает мониторинг, автоматизацию и возможности самообслуживания для развертывания бизнес-приложений. Инициализация системы осуществляется через виртуальный модуль Cloud Builder, который автоматически развертывает ESXi, vCenter, vSAN и NSX, после чего управление и автоматизация переходят к SDDC Manager. Это устройство отвечает за дальнейшее добавление ресурсов и обновление системы, обеспечивая единообразие и упрощение управления инфраструктурой.
VMware Cloud Foundation предлагает эффективное решение для современных ИТ-задач, включая поддержку современных приложений через Kubernetes и AI, упрощая управление данными, приложениями и оборудованием в рамках частного облака на предприятии.
Таги: VMware, VCF, Cloud, vSphere, NSX, vSAN, Video