Продолжаем рассказывать о главном продукте для создания отказоустойчивых хранилищ StarWind Virtual SAN, который позволяет обеспечивать бесперебойное функционирование кластеров виртуальных машин на базе серверов виртуализации VMware ESXi или Microsoft Hyper-V. Сегодня мы рассмотрим механизм назначения прав доступа инициаторов в консоли StarWind Management Console, с помощью которой администраторы управляют всеми аспектами виртуальных хранилищ.
Таги: StarWind, iSCSI, Virtual SAN, VSAN, Security, Storage, HA
Продолжаем рассказывать технические подробности о работе продукта StarWind Virtual SAN, позволяющего создавать программные и программно-аппаратные отказоустойчивые кластеры iSCSI для виртуальных сред. Сегодня мы поговорим о расширенных настройках протокола iSCSI на стороне StarWind и на стороне VMware ESXi, чтобы обеспечить непрерывное функционирование приложений в виртуальных машинах при обрыве соединений.
Стек работы с хранилищами VMware ESXi настроен таким образом, чтобы адекватно реагировать на кратковременную потерю сигнала в канале iSCSI, которая может возникнуть по разным причинам (кто-то перекоммутировал соединение, дрогнул порт и т.п.). По умолчанию расширенные настройки iSCSI выставлены так, чтобы переживать кратковременные сбои в рамках одного пути в интервале 25-35 секунд. В это время I/O-запросы будут копиться в очереди, а потом, либо произойдет продолжение передачи при восстановлении текущего соединения, либо хост переключится на резервный путь (failover) текущего или резервного адаптера.
В то время, как такое поведение не является критичным для большинства приложений, иногда есть специфические требования, которые надо выполнять для отдельных систем. Например, если речь идет о системе видеонаблюдения, то там задержка в полминуты является неприемлемой, и ее надо обрабатывать быстрее.
Для этого, если вы используете хранилища StarWind Virtual SAN, есть специальные настройки реагирования на подобные ситуации.
Итак, для начала вам нужно остановить службы StarWind Virtual SAN:
В консоли StarWind Management Console проверить, что все устройства StarWind HA находятся в статусе "Synchronized" на всех серверах
Проверить, что все датасторы имеют активные задублированные пути для всех серверов StarWind, а политика доступа по нескольким путям (MPIO) установлена в Round Robin
На StarWind VSAN для Windows нужно выполнить команду для остановки служб StarWind: net stop starwindservice
На виртуальном модуле StarWind VSA нужно выполнить такую команду: systemctl stop StarWindVSA
Далее открываем конфигурационный файл:
На StarWind VSAN для Windows: C:\Program Files\StarWind Software\StarWind\StarWind.cfg
На виртуальном модуле StarWind VSA: nano /opt/StarWind/StarWindVSA/drive_c/StarWind/StarWind.cfg
Далее там находим параметр iScsiPingCmdSendCmdTimeoutInSec и выставляем его значение, например в "1" (одна секунда).
Ну и, наконец, надо запустить службы StarWind VSAN:
На StarWind VSAN для Windows: net start starwindservice
На виртуальном модуле StarWind VSA: systemctl start StarWindVSA
Теперь нужно добраться до расширенных настроек iSCSI инициатора VMware ESXi. Открываем Advanced Options для адаптера в разделе Storage Adapters нужного нам инициатора:
И смотрим, какие настройки там выставлены:
Нас интересует:
RecoveryTimeout - это как раз время, через которое активный путь помечается как "мертвый" (переводится в DEAD_STATE), когда по нему больше не приходит команд ввода-вывода.
NoopInterval - это интервал, с которым происходит пассивное тестирование неактивных путей на предмет того, живы ли они.
NoopTimeout - это время, через которое происходит пометка неактивного пути как DEAD, если по нему не получено ответа.
Эти настройки по умолчанию установлены в оптимальные с точки зрения вероятности отказа/потерь значения. Меняйте их только, если у вас есть особые требования приложений по непрерывной доступности хранилищ, и вы знаете, какое поведение системы хотите получить. Уменьшение таймаутов, очевидно, ведет к загрузке сети пингами каналов iSCSI и дополнительной нагрузке на устройства.
Нил Андерсон (Neil Anderson) прислал нам ссылку на интересный список "List of VSA Virtual Storage Appliances and SAN Storage Simulators", в котором представлены основные виртуальные модули (Virtual Storage Appliances, VSA) и симуляторы для создания программных общих SAN-хранилищ.
Вот список VSA-модулей и SAN-симуляторов, представленный по ссылке:
Dell EMC Data Domain Virtual Edition – Community Edition
Oracle ZFS Storage Simulator
IBM Spectrum Scale Virtual Machine
HDS HCS Simulator
Nimble Virtual Array VSA
Nutanix Community Edition
Synology DSM XPEnology Simulator
NexentaStor Community Edition VSA
Datacore Hyperconverged Virtual SAN
StorMagic SvSAN Trial
Бонусом идет список программных и аппаратных продуктов, для которых можно посмотреть на их управляющий интерфейс в рамках демо:
IBM StorWize V-Series Demo
Dell EMC Unity All Flash Simulator Demo
Dell EMC VNXe Demo
Synology DSM NAS Demo
QNAP QTS NAS Demo
Thecus NAS Demo
NetGear ReadyNAS NAS Demo
К каждому продукту автор приложил описание системных требований, а также ссылки на туториалы (в том числе видео) и документацию. Довольно полезная штука, скажу я вам!
На днях компания StarWind Software выпустила серьезное обновление своего флагманского продукта для создания отказоустойчивых программных хранилищ под виртуализацию StarWind Virtual SAN V8. Напомним, что это решение на сегодняшний день является лидером отрасли и, на наш взгляд, является самым удобным и мощным средством создания реплицируемых хранилищ для виртуальных машин.
Давайте посмотрим, что нового появилось в Virtual SAN V8 (build 12585) от 25 октября:
1. Виртуальная ленточная библиотека VTL и функции облачной репликации (Cloud Replication)
Добавлена поддержка ленточных устройств LTO8.
Добавлены новые команды PowerShell для управления устройствами VTL и настройками Cloud Replication. Вы можете посмотреть примеры использования по адресу C:\Program Files\StarWind Software\StarWind\StarWindX\Samples\powershell\.
2. Демо-версия NVMf Target.
Простой NVMf Target можно создать в демонстрационных целях. Существующий NVMf initiator можно теперь использовать для соединения с этим таргетом.
Простые устройства RAM Disk и Flat Storage теперь поддерживаются. Например, рекомендуется использовать сетевые адаптеры Mellanox RDMA-enabled с последними драйверами от производителя.
Также можно использовать любые другие адаптеры, которые реализуют слой NetworkDirect API.
Учитывайте, что процесс установки StarWind VSAN перезаписывает конфигурационный файл NVMf Target (nvmf.conf). Если во время установки уже есть файл nvmf.conf, он будет сохранен как nvmf.conf.bak.
Для новой версии запросите новый лицензионный ключ (даже если сейчас NVMf работает) - как для издания Free, так и для триальной лицензии.
3. Улучшения синхронной репликации.
Исправлена проблема, когда процессор (CPU) узла хранения мог оказаться загружен на 100% CPU. Это происходило потому, что в некоторых случаях транспорт канала синхронизации мог загружать одно ядро CPU полностью. Если число каналов синхронизации совпадало с числом ядер CPU, сервис переставал отвечать.
Многие пользователи небольших виртуальных инфраструктур ищут надежные решения для организации программных хранилищ, при этом им бы не хотелось покупать отдельную лицензию на Windows Server под узлы хранения.
Специально для них компания StarWind, известная своим продуктом Virtual SAN, позволяющим организовать отказоустойчивые кластеры хранилищ, создала виртуальный модуль StarWind Virtual Storage Appliance (VSA) на базе Linux.
StarWind VSA представляет собой полностью готовую к импорту в вашу виртуальную среду виртуальную машину, реализующую все необходимые сервисы Virtual SAN. Развертывается она буквально в пару кликов, а далее управляется через удобную веб-консоль (StarWind Web console).
Чтобы узнать больше о возможностях продукта и вживую увидеть его демонстрацию (а также позадавать вопросы на русском языке) - регистрируйтесь на вебинар. Скачать StarWind Virtual Storage Appliance можно по этой ссылке.
В январе компания StarWind проводила вебинар о виртуальном модуле StarWind VSA на базе Linux, который позволит вам создавать программные хранилища iSCSI/NFS для ваших виртуальных машин.
Сейчас стала доступна запись этого вебинара, где Богдан рассказывает о том, для чего предназначен StarWind VSA и наглядно в консоли показывает, каким образом с ним нужно работать:
Ожидается, что продукт StarWind VSA for Linux будет доступен в течение пары месяцев.
Компания StarWind выпускает новый продукт - виртуальный модуль для создания программных хранилищ на базе ОС Linux (StarWind Virtual Storage Appliance, VSA), который будет работать на любом гипервизоре в виде готовой к использованию виртуальной машины.
Вебинар пройдет в этот четверг, 19 января в 17-00 по московскому времени. Обратите внимание, что у StarWind новый спикер - Алекс Быковский (вопросы можно задавать на русском языке).
Для пользователей решения vRealize Operations Management (vROPS), предназначенного для комплексного управления и мониторинга виртуальной инфраструктуры vSphere, отличная новость - вышел VMware vRealize Operations Management Pack for vSAN.
Теперь за счет интеграции vSAN и vROPS можно использовать множество различных дэшбордов для управления, оптимизации и мониторинга производительности объектов vSAN в окружении vCenter Server. vRealize Operations Management Pack for vSAN построен на базе vRealize Operations 6.4 и предназначен для интеграции vSAN в единую Enterprise-инфраструктуру под управлением vROPS.
Основные возможности vRealize Operations Management Pack for vSAN:
Вывод информации и аналитика
Просмотр полного стэка объектов от приложений/виртуальных машин до кластера vSAN на дэшборде vSAN Overview. vSAN MP идентифицирует все ресурсы кластера - вычислительные, хост-системы и датасторы.
Унифицированное представление для распределенных датацентров, включая "растянутые" кластеры vSAN.
Вывод результатов проверок кластера по состоянию и конфигурации (health & configuration checks).
Аналитика по метрикам производительности в стиле "до и после" для виртуальных машин и приложений, перемещенных в кластер vSAN
Операционные возможности и мониторинг
Мониторинг и алертинг проблем кластеров vSAN через Alert Groups - по состоянию, емкости и конфигурации. Это основано на хэлсчеках самого кластера vSAN.
Специализированный vSAN Performance Dashboard для поиска и траблшутинга проблем.
Интеграция с системами сервисдеска, такими как ServiceNow, а также различными чатами (hipchat, Slack) и средствами нотификации (Pagerduty) через механизм Webhooks (также есть несколько предсозданных примеров).
Управление использованием кластеров и прогнозирование утилизации
Идентификация кластеров, в которых не хватает места или скоро закончится место.
Сравнение кластеров Non-vSAN и VSAN при развертывании или балансировке рабочих нагрузок в виртуальных машинах в целях выбора оптимального хранилища по производительности и занятому дисковому пространству.
Устроено это шифрование ВМ на базе алгоритма AES-NI, а управление ключами происходит по стандарту KMIP 1.1. Когда операция ввода-вывода приходит на диск виртуальной машины - она сразу же шифруется "на лету", что обеспечивает полную безопасность при попытке несанкционированного доступа к данным.
Шифруются не только виртуальные диски, но и конфигурационные файлы VMX, файлы снапшотов и все прочие файловые объекты, относящиеся к виртуальной машине. Шифрованные виртуальные машины всегда перемещаются между хостами ESXi средствами также шифрованного vMotion.
Между тем, на уровне отказоустойчивого кластера хранилищ Virtual SAN также есть возможность шифрования их содержимого. Как же эти два вида шифрования соотносятся между собой, и зачем они оба нужны?
Для начала посмотрим, как это работает на примере схемы шифрования на уровне виртуальных машин:
VM Encryption реализован на уровне программного интерфейса VAIO (vSphere APIs for IO Filters), который позволяет специальному фильтру обрабатывать команды ввода-вывода непосредственно до того, как они поступят в виде блоков на устройство хранения (помимо шифрования, фильтры могут еще и некоторым другим образом обрабатывать ввод-вывод).
Непосредственно - это означает, перед тем как отправить конечную команду ввода-вывода на устройство, фреймворк VAIO проверяет, назначено ли шифрование для ВМ в политике хранения (Storage policy), и если это так - то команда процессится на уровень соответствующего I/O-фильтра, после чего сразу же отправляется на блочный девайс.
Таким образом, на самом нижнем уровне происходит шифрование ввода-вывода, и это очень безопасно. Зато не очень удобно - зашифрованные таким образом блоки, поступающие в пространство хранения VSAN теперь уже не могут быть эффективно дедуплицированы (малая вероятность совпадения блоков), а также и сжаты - ведь шифрованные данные обладают большой энтропией, а значит неэффективны для алгоритмов сжатия.
Поэтому в кластере VSAN, где на первом плане, как правило, эффективность хранения виртуальных машин в плане экономии дискового пространства, шифрование организуется иным образом. Тут используется концепция "encryption at rest". Сначала данные в незашифрованном виде идут по сети (в целях ускорения и работы сжатия), затем они в зашифрованном виде падают в кэш. После чего, перед тем, как отправиться на постоянное хранение (destaging), они будут расшифрованы, дедуплицированы/сжаты и снова зашифрованы уже на целевом устройстве.
Поэтому шифрование на уровне кластера VSAN - это настройка также на уровне всего кластера. Таким образом, ключевые отличия данных методов шифрования состоят в следующем:
Шифрование уровня ВМ (VM Encryption) средствами VAIO:
Основано на политиках хранения (и включается для конкретной ВМ)
Передача данных также шифрована (vMotion)
Дедупликация на целевом хранилище неэффективна
Шифрование уровня кластера хранилищ (vSAN Encryption):
Включается для всего кластера в целом
Данные передаются между хостами в незашифрованном виде, но в кэше хранятся шифрованными
Полная совместимость со всеми сервисами VSAN, такими как компрессия и дедупликация
Таги: VMware, vSphere, VSAN, Security, Virtual SAN
Совсем недавно закончилась одна из главных конференций по виртуализации VMworld Europe 2016, которая, по традиции, проходит несколько позже главного VMworld в США. Если в Америке компания VMware рассказывала о новых технологиях и концепциях построения будущих датацентров, то в Европе гораздо больше внимания было уделено новым возможностям обновленных версий продуктов VMware... Таги: VMware, VMworld, vSphere, Update, VVols, SRM, Virtual SAN, VSAN
На проходящей сейчас конференции VMworld Europe 2016 в Барселоне компания VMware анонсировала даже больше продуктов, чем на VMworld 2016 в Лас-Вегасе (там было больше про технологии). Напомним анонсы уже этого, европейского VMworld:
Ну а сейчас мы расскажем про обновление средства для создания отказоустойчивых кластеров хранения VMware Virtual SAN 6.5. Напомним, что о прошлой версии Virtual SAN 6.2 мы писали здесь, а про VSAN 6.0 можно почитать вот тут.
Давайте посмотрим, что нового в VMware VSAN 6.5:
1. Обновленные Virtual SAN API и vSphere PowerCLI.
Теперь интерфейсы доступа из командной строки и внешних систем были существенно обновлены и доработаны. Стало возможным автоматизировать конфигурацию и управление настройками кластера, дисковых групп, доменов отказа (fault domains) и растянутых кластеров. Также можно управлять различными активностями, такими как режим обслуживания и выключение кластера. Более подробно можно все это увидеть вот в этом видео:
Также через PowerCLI можно отслеживать состояние кластера Virtual SAN.
2. Поддержка двухузловой конфигурации через кросс-кабели.
Ранее кластер Virtual SAN можно было собрать только из трех или более узлов, что препятствовало внедрению технологии в небольших компаниях и филиалах. Теперь же можно создать двухузловую конфигурацию, где хосты соединены между собой кросс-кабелями (без коммутаторов) и там развертывать и виртуальную инфраструктуру, и хранилища виртуальных машин.
Также важно отметить, что теперь лицензирование Virtual SAN for ROBO поддерживает All-Flash конфигурации. Лицензия называется Virtual SAN for ROBO Advanced и позволяет использовать компрессию, дедупликацию и защиту от ошибок (erasure coding).
3. Увеличенная гибкость Virtual SAN 6.5.
Теперь таргеты Virtual SAN можно использовать для физических серверов, что дает решению намного больше гибкости в плане хранения данных предприятия. Функциональность iSCSI targets для Virtual SAN управляется таким же образом, как и виртуальные объекты через механизм Storage Policy Based Management (SPBM).
Также поддерживаются дедупликация, компрессия, мирроринг и erasure coding. Для аутентификации используется CHAP и Mutual CHAP.
4. Поддержка контейнеров.
Средствами механизма vSphere Integrated Containers Engine технология Virtual SAN 6.5 поддерживает контейнеры Docker и другие. Специальный драйвер Docker Volume Driver для vSphere позволяет управлять данными контейнеров, которые размещены на хранилищах VMFS, NFS и Virtual SAN.
Кроме того, в рамках данной новой функции предоставляется API для развертывания контейнеров на хранилищах Virtual SAN, а также средства перемещения виртуальных машин с контейнерами между хостами без перемещения их данных.
5. Поддержка нового аппаратного обеспечения.
Вместе с VMware vSphere 6.5 средства Virtual SAN 6.5 поддерживают новое аппаратное обеспечение, такое как диски 512e очень большой емкости, а также протоколы доступа к SSD-накопителям по шине PCIe - NVMe. Это на идеальных тестах дает до 150 тысяч IOPS на один хост. Также теперь полноценно поддерживается большой спектр хранилищ All-Flash.
Обновленная версия решения VMware Virtual SAN 6.5 будет доступна для загрузки до конца 2016 года.
Дункан Эппинг уже рассказал о трех новых возможностях обновленной версии VSAN:
Программное шифрование неиспользуемых данных (Data at rest).
Технология Nested Fault Domains (FDs), которая обеспечивает двухуровневую защиту "растянутых" кластеров (stretched clusters) - локально и между сайтами. Получается RAID 1 между сайтами, а внутри сайта можно организовать RAID 1, 5 или 6.
Новые улучшения с точки зрения средств управления виртуальной инфраструктурой - интеграция со средством vReealize Automation, отправка состояния жизнедеятельности на vCenter (healthchecks), мониторинг сетевой активности кластеров хранилищ и другое.
В новой бете VSAN ожидается еще несколько интересных возможностей, так что подписывайтесь на нее вот тут.
Вебинар пройдет 18 августа в 15-00 по московскому времени.
Основная фишка StarWind VSA - программная реализация инфраструктуры хранилищ и независимость от вендора, что позволяет использовать решение максимально гибко на любых аппаратных платформах, при этом приобретать дорогостоящие массивы не требуется.
Чтобы узнать больше обо всем этом - регистрируйтесь на вебинар. Приятный бонус - вы сможете задать вопросы на русском языке!
Некто Kim Bottu в своем блоге опубликовал интересный калькулятор, предназначенный для определения того, сколько хостов, хранилища, физических/виртуальных процессоров, памяти и кэша вам потребуется, чтобы поддерживать кластеры VMware Virtual SAN для вашей инфраструктуры виртуальных хранилищ.
VMware VSAN 6.2 Online resource calculator представляет собой Excel-таблицу, размещенную в облаке Microsoft OneDrive, в которой показаны только редактируемые поля для ввода данных, влияющие на результат (а параметры, которые используются в качестве исходных данных, можно посмотреть в таблице, начиная с ячейки EO:1660).
В верхней части таблицы черным шрифтом обозначаются ресурсы, которые рассчитываются только для того, чтобы можно было исполнять виртуальные машины в кластере Virtual SAN, а красным шрифтом выделен тот объем ресурсов, который вам потребуется, чтобы обеспечить требуемый уровень избыточности и отказоустойчивости.
В синей (верхней) области таблицы данные параметры рассчитываются для All-Flash архитектуры кластера Virtual SAN, а зеленая часть предназначена для расчетов гибридной архитектуры (обычные HDD-диски для данных, а SSD-носители - для кэша).
Также жирным шрифтом выделены реальные ресурсы (процессоры хостов, память, хранилища), которые вам нужно приобрести для своей инфраструктуры, а обычным шрифтом - вспомогательные параметры (как именно эти ресурсы распределяются).
Калькулятор весьма интересный, доступ к нему можно получить по этой ссылке. Кроме того, напомним, что мы писали еще об одном калькуляторе для VMware Virtual SAN от компании VMware, который также помогает вам проводить сайзинг инфраструктуры VSAN и считать совокупную стоимость владения такой инфраструктурой (TCO - total cost of ownership). В принципе, ничто вам не мешает воспользоваться обоими калькуляторами и сравнить результаты, которые должны, по идее, более-менее сходиться.
Компания VMware выпустила весьма полезный документ "VMware Virtual SAN 6.2
Network Design Guide", в котором приведены конкретные рекомендации по настройке и конфигурации сети при организации отказоустойчивых кластеров хранилищ.
Посмотрим, какие интересные моменты есть в документе. Например, рассматривается следующая архитектура построения кластера Virtual SAN (это Leaf-Spine архитектура):
В такой сети показатель переподписки (oversubscription) между стойками равен 4:1 (от хостов идет 16 линков по 10 Гбит к свичу, от которого идет 4 линка по 10 Гбит к Spine-коммутатору). В этом случае, если предположить, что на хостах 10 ТБ емкости, из которых 6 ТБ занимают данные виртуальных машин, и вдруг возникнет необходимость операции rebuild для кластера (при FTT=1), то при использовании 3/4 пропускной способности канала (то есть 30 Гбит/с) операция займет 26 минут. Если же объем данных на хосте увеличить до 12 ТБ, а канал уменьшить до 10 Гбит/с, то rebuild займет 156 минут. Мораль такова - нельзя перебарщивать с переподпиской, а также нужно обеспечить широкий канал между узлами кластера.
Еще из рекомендаций в документе:
Отключите Flow Control на физическом оборудовании, у Virtual SAN есть свой механизм контроля перегрузки канала.
Используйте vSphere Distributed Switch (VDS) совместно с Virtual SAN.
Настройте Load Based Teaming (LBT), который балансирует нагрузку, в зависимости от загрузки физического адаптера (похоже на Virtual Port ID, только привязка к порту пересматривается каждые 30 секунд).
Если используете несколько кластеров Virtual SAN - помещайте трафик каждого из них в отдельный VLAN.
Если в датацентре используются большие кадры jumbo frames - используйте их в кластере Virtual SAN, но если не используются - то отдельно включать их не надо.
Включите Cisco Discovery Protocol (CDP) и Link Layer Discovery
Protocol (LLDP) в режимах и приема, и передачи.
В документе присутствует еще несколько интересных рекомендаций, прочитать которые будет особенно интересно администраторам крупных инфраструктур и больших кластеров Virtual SAN.
Интересный пост написал Duncan Epping о растянутом кластере (Stretched Cluster) Virtual SAN и обработке события изоляции площадки механизмами HA и VSAN. Изложим тут его вкратце.
Как вы знаете, растянутый кластер Virtual SAN состоит из трех компонентов - две площадки с хранилищами VSAN и виртуальными машинами и одна площадка, выступающая как "свидетель" (Witness) и необходимая для принятия решения о том, какая площадка выпала из внешнего мира (то есть с ней нет связи), а какая способна продолжать поддерживать работу виртуальных машин (как в плане хранения, так и в плане исполнения на вычислительных ресурсах хостов).
Таким образом, обычно схема растянутого кластера выглядит так:
Теперь, допустим, на основной площадке (Site 1) произошла авария - и хосты ESXi с виртуальными машинами стали частично или полностью недоступны. При этом теряется ее связь как со второй площадкой (Site 2), так и с компонентом Witness на третьей площадке.
В этом случае происходит следующее:
Хосты площадки Site 1 имеют связь между собой, события внутренней изоляции не происходит, поэтому HA не реагирует на ситуацию.
Однако кластер Virtual SAN понимает, что площадка Site 1 изолирована от Site 2 и Witness (нет кворума), а значит и от внешнего мира, поэтому принимает решение выключить виртуальные машины. Это поведение можно изменить, установив расширенную настройку VSAN.AutoTerminateGhostVm в значение 0 (но делать это не рекомендуется).
На второй площадке (Site 2) происходят выборы нового Master-узла в кластере VMware HA. Этот узел сверяется со списком protectedlist (в нем пока нет машин из Site 1), добавляет новые ВМ туда и берет на себя владение машинами с первого узла, так как теперь есть кворум у второй площадки. Что такое кворум? Это 2 компонента из трех (большинство) в растянутом кластере - сама эта площадка и компонент Witness (они видят связь друг с другом). Таким образом, VMware HA на второй площадке начинает восстановление виртуальных машин первого сайта.
Как VMware HA убеждается, что на первой площадке эти машины выключены? Да никак - просто по дизайну заложено, что кластер Virtual SAN в случае изоляции площадки Site 1 потушит все ее виртуальные машины, поэтому владение этими машинами перейдет ко второй площадке.
Ну и, конечно же, тут нельзя не порекомендовать интереснейший документ VMware vSphere 6.x HA Deepdive, в котором есть все ответы на подобные вопросы.
Таги: VMware, HA, Stretched, Virtual SAN, VSAN, Blogs, vSphere, ESXi
Есть пара интересных постов, на базе которых мы попробуем вкратце описать поведение кластера VMware Virtual SAN в случае, если при развертывании виртуальной машины кластер не способен обеспечить требуемые политики хранилищ (Storage Policies).
1. Обычный кластер Virtual SAN.
Если при развертывании новой ВМ в кластере VSAN невозможно обеспечить требуемые политики хранилищ (например, не хватает места для создания зеркалируемых объектов реплик), а именно:
то виртуальная машина не сможет быть развернута в кластере. Но есть такая настройка Force Provisioning для VM Storage Policy, которая позволяет игнорировать указанные 3 параметра при развертывании новой ВМ в кластере.
Однако надо понимать, что при использовании Force Provisioning происходит не понижение требований кластера к хранилищу виртуальной машины (например, вместо FTT=2 можно было бы проверить FTT=1), а использование следующих параметров:
NumberOfFailuresToTolerate = 0
NumberOfDiskStripesPerObject = 1
FlashReadCacheReservation = 0
То есть нужно просто аллоцировать место под виртуальную машину, совершенно без соблюдения требований к дублированию данных и резервированию кэша.
Но кластер Virtual SAN имеет еще одну специфическую черту - если вы использовали Force Provisioning при недостатке дисковых ресурсов, то когда они освободятся, для хранилища машины будут сделаны реплики дисковых объектов и прочие операции, чтобы она все-таки соответствовала требуемым политикам хранилищ. Администраторам надо иметь эту особенность в виду.
И еще один момент - так как в случае Force Provisioning может храниться только одна копия дисковых объектов, то, например, если при переводе хоста в режим Maintenance Mode случится какой-нибудь сбой с его хранилищем - реально можно потерять эту машину целиком. Делайте бэкап и, по-возможности, не используйте Force Provisioning - старайтесь соблюдать политики хранилищ хотя бы на уровне FTT=1.
2. Растянутый кластер (Stretched Cluster).
В случае растянутого кластера появляется еще один компонент - Witness Appliance, следящий за ситуацией Split Brain, которая может появиться между площадками. Если вырубить этот виртуальный модуль и попытаться включить виртуальную машину или создать новую ВМ, то кластер Virtual SAN (несмотря на то, что он Failed и политика хранилищ не соблюдена) позволит это сделать, правда будет ругаться, что машина не соответствует текущим политикам хранилищ:
В остальном растянутый кластер ведет себя по отношению к Force Provisioning так же, как и обычный.
Некоторые из вас знают, что для поиска и решения проблем в виртуальной инфраструктуры, среди прочих интерфейсов командной строки, есть такой инструмент, как Ruby vSphere Console (RVC).
Используется она достаточно редко, но ниже мы покажем пример ее использования на базе вот этой заметки от Кормака Хогана.
Чтобы запустить Ruby vSphere Console, нужно набрать в командной строке ESXi команду в следующем формате:
rvc [options] [username[:password]@]hostname
Например:
# rvc administrator:vmware@192.168.1.100
После этого появится приглашение ко вводу различных команд:
login as: root
VMware vCenter Server Appliance
administrator@192.168.1.100's password:
Last login: Thu Jul 17 22:29:15 UTC 2014 from 10.113.230.172 on ssh
Last failed login: Fri Jul 18 06:31:16 UTC 2014 from 192.168.1.20 on ssh:notty
There was 1 failed login attempt since the last successful login.
Last login: Fri Jul 18 06:31:35 2014 from 192.168.1.20
vcsa:~ # rvc administrator:vmware@192.168.1.100
0 /
1 192.168.1.100/
Их можно выполнять в рамках следующих пространств имен (namespaces):
Во второй снизу строчке мы видим пространство имен VSAN, относящееся к кластерам хранилищ Virtual SAN. Давайте посмотрим на решение одной проблемки с его помощью.
Допустим, вы увидели в кластере VSAN следующую ошибку в разделе Component Metadata Health:
Invalid state
Согласно вот этой статье KB 2108690, эта ошибка может относиться к физической проблеме с диском - когда процесс выделения физических блоков при сбрасывании их из кэша на диск идет очень медленно. Эта ошибка может свидетельствовать просто о высокой нагрузке на диск, в этом случае она уходит при спаде нагрузки. Но если она повторяется при малой нагрузке - значит с диском явно что-то не так.
В столбце "Component" указан component UUID диска, с которым возникла проблема - но как узнать, на каком хранилище он расположен, в консоли vSphere Web Client? Для этого мы и возьмем Ruby vSphere Console, а именно команду vsan.cmmds_find:
Компания VMware на днях выпустила множество обновлений своей продуктовой линейки в сфере серверной виртуализации. Прежде всего, важно, что было выпущено обновление VMware Virtual SAN 6.2, о котором мы подробно писали вот тут. Теперь его можно скачать и использовать в производственной среде.
Также для того, чтобы была обеспечена полная поддержка новых возможностей VSAN 6.2 была выпущена обновленная версия платформы виртуализации VMware vSphere 6.0 Update 2. Но самое главное там - это то, что теперь VMware Host Client (который вы знаете как ESXi Embedded Host Client) включен в стандартную поставку ESXi и доступен из коробки!
Напомним также, что о прошлом апдейте vSphere 6 Update 1, который вышел почти полгода назад, мы писали вот тут.
Посмотрим на новые возможности vSphere 6.0 Update 2. Что нового в ESXi 6.0 Update 2:
High Ethernet Link Speed: теперь ESXi 6.0 U2 поддерживает скорости ethernet-соединения 25G и 50G.
VMware Host Client: новый HTML5-клиент для управления одиночным хостом VMware ESXi, о последних версиях которого в виде VMware Fling мы писали вот тут, тут и тут. Это средство для выполнения основных административных задач, управления ресурсами и виртуальными машинами. Также Host Client подходит для поиска и решения проблем, возникших на отдельных хостах VMware ESXi, когда, например, vCenter Server или Web Client недоступны. Смотрите также Host Client 1.0 Release Notes.
vSphere APIs for I/O Filtering (VAIO): ESXi 6.0 Update 2 теперь поддерживает компонент IO Filter VASA Provider в полноценном IPv6-окружении.
Поддержка VMIOF версий 1.0 и 1.1, а также множество исправлений ошибок.
Поддержка двухфакторной аутентификации в vSphere Web Client средствами следующих технологий:
RSA SecurID
Смарт-карты (UPN based Common Access Card)
Поддержка изменения уровня логгирования vSphere ESX Agent Manager без его перезагрузки.
Поддержка vSphere Web Cient для Microsoft Windows 10.
Поддержка новых версий в качестве внешних СУБД VMware vCenter:
Microsoft SQL Server 2012 Service Pack 3
Microsoft SQL Server 2014 Service Pack 1
Помимо всего этого, в последнее время компания VMware выпустила также обновления следующих своих продуктов (о новых возможностях вы можете узнать из соответствующих Release Notes):
Среди возможностей решения для создания отказоустойчивых хранилищ VMware Virtual SAN 6.2 мы забыли упомянуть о нововведении в части обработки файлов подкачки - Sparse Swap.
Как вы знаете при создании виртуальной машины в обычной инфраструктуре под нее резервируется файл *.vswp, который равен по размеру объему сконфигурированной оперативной памяти виртуальной машины (либо объему незарезервированной памяти, то есть разнице между сконфигурированной и зарезервированной памятью, если она указана в настройке reservation). Это нужно на случай, когда машине не хватает свободной физической памяти (в ситуации, если уже не спасают техники memory overcommit), и она начинает сбрасывать страницы памяти в своп-файл на диске.
То есть, если вы создали ВМ с оперативной памятью 4 ГБ, то столько же займет и файл подкачки для этой ВМ. А теперь посмотрим на инфраструктуру Virtual SAN: если у вас задан параметр FTT=1, то каждый дисковый объект (в том числе и файл *.vswp) будет задублирован (если у вас mirror-конфигурация).
Теперь посчитаем, сколько места съест своп 100 виртуальных машин, у каждой из которых 4 ГБ оперативной памяти и которые размещены в кластере VMware Virtual SAN с FTT=1 в зеркальной конфигурации:
100 ВМ * 4 ГБ * 2 (FTT равен 1) = 800 ГБ
Да, именно так - почти терабайт только под своп. Кому-то это покажется расточительством, поэтому в Virtual SAN сделали такую штуку, как Sparse Swap. Эта функция позволяет создавать файлы подкачки vswp как тонкие, то есть растущие по мере наполнения данными, диски.
Для того, чтобы включить опцию Sparse Swap, нужно выполнить следующую команду на хосте VMware ESXi:
На сайте проекта VMware Labs появилась интересная и полезная утилита для тех, кому нужно проверить совместимость контроллеров хранилищ на хостах VMware ESXi со списком поддерживаемых устройств в кластере VMware Virtual SAN. C помощью VSAN Hardware Compatibility List Checker можно проверить модель и версию firmaware контроллеров LSI и HP, а также их различных OEM-вариаций.
Утилита поставляется в виде exe-файла, который находится в папке с архивом:
Для начала работы нужно просто ввести имя хоста ESXi и пароль пользователя root:
В качестве результата в папке с утилитой будет сформирован html-файл (этот шаблон можно редактировать в файле reportTemplate.html), в котором будет информация о совместимости контроллеров хранилищ со списком VSAN HCL (шильдики yes и N/A).
Некоторые нюансы работы утилиты:
Обнаружение версии firmware доступно только для контроллеров HP/LSI.
Необходимо, чтобы был установлен компонент LSI/HP CIM provider.
Требуется запущенная служба CIM Service (secure) на хосте ESXi на порту 5989.
Нужен доступ к хостам ESXi по протоколу HTTPS, по порту 443.
Интересно, что утилита VSAN Hardware Compatibility List Checker работает не только с последней версией Virtual SAN, но и с более ранними версиями. Скачать HCL Checker можно по этой ссылке.
В этой заметке мы рассмотрим новые возможности решения для создания отказоустойчивых хранилищ на базе хост-серверов VMware Virtual SAN 6.2. Напомним, что о прошлой версии Virtual SAN 6.1, вышедшей осенью прошлого года, мы писали вот тут.
Итак, давайте посмотрим на новые возможности VSAN 6.2:
1. Дедупликация и сжатие данных.
Теперь обе этих технологии оптимизации хранилищ используются совместно, чтобы достичь наилучших результатов по стоимости хранения данных. Сначала данные виртуальных машин дедуплицируются на уровне дисковой группы, а потом сжимаются, что позволяет уменьшить исходный размер ВМ до 7 раз, в зависимости от типов нагрузки в гостевых ОС, по сравнению с первоначальным размещением.
Каждый vmdk хранит только оригинальные дисковые блоки:
2. Технология Erasure Coding (коррекция ошибок - "RAID из узлов").
В версии Virtual SAN 6.1 если вы используете параметр failures to tolerate =1 (FTT, зеркальная избыточность), то вам нужна двойная емкость в кластере. То есть, если будет 100 ГБ под виртуальные машины, то на хостах суммарная емкость должна составлять 200 ГБ.
По аналогии с RAID5/6 и другими типами RAID с чередованием, пространство хранения Virtual SAN 6.2 представляет собой "RAID из хостов ESXi". Таким образом, можно использовать схемы 3+1 или 4+2, которые позволят иметь лишь в 1,3 раза больше физического пространства (для первой схемы), чем полезной емкости. Об этом мы уже писали вот тут.
Вот интересная таблица соответствия параметров FTT, требований к инфраструктуре хранения и получаемых емкостей при различных типах RAID из хостов VMware ESXi:
3. Регулирование Quality of Service (QoS).
Теперь на уровне виртуальных дисков VMDK доступна регулировка полосы ввода-вывода на уровне IOPS:
Эти настройки могут быть применены через механизм политик хранилищ Storage Policy-Based Management (SPBM). Скорее всего, это будет востребовано в больших облачных инфраструктурах, особенно у сервис-провайдеров, которым необходимо обеспечивать различные уровни обслуживания своим клиентам. Также это позволяет создать механизм для того, чтобы рабочие нагрузки, размещенные на одном хранилище, не влияли друг на друга в моменты наибольшей нагрузки на подсистему хранения.
4. Техника Software Checksum.
Эта техника позволяет своевременно обнаруживать сбои, относящиеся к аппаратным и программным компонентам во время операций чтения/записи. Тут выделяются 2 типа сбоев: первый - "latent sector errors", который, как правило, свидетельствует о физической неисправности носителя, и второй - "silent data corruption", который происходит без предупреждения и может быть обнаружен только путем глубокой проверки поверхности накопителя.
5. Полноценная поддержка IPv6.
Теперь Virtual SAN поддерживает не только IPv4 и IPv6, но и смешанные окружения IPv4/IPv6 (для тех случаев, когда, например, на предприятии идет процесс миграции на новую версию протоколов).
6. Сервис мониторинга производительности.
Эти службы позволяют наблюдать за производительностью кластера Virtual SAN со стороны сервера vCenter. Теперь не обязательно идти в консоль vRealize Operations, чтобы решать базовые проблемы. Теперь в плане мониторинга доступны как высокоуровневые представления (Cluster latency, throughput, IOPS), так и более гранулярные (на базе дисков, попадания в кэш, статистика для дисковой группы и т.п.).
Также предусмотрена возможность предоставления данных о производительности кластера Virtual SAN сторонним сервисам через API. Для хранения событий используется собственная распределенная база данных, не зависящая от сервисов vCenter и хранящаяся в рамках кластера.
Компания VMware в своем блоге, посвященном продуктам линейки VMware vSphere, представила интереснейшее доказательство, что кластер VMware Virtual SAN дает надежность "шесть девяток", то есть доступность данных 99,9999% времени в году. А это меньше, чем 32 секунды простоя в год.
Бесспорно, приведенное ниже "доказательство" основано на множестве допущений, поэтому заявление о шести девятках является несколько популистским. С моей точки зрения, гораздо более вероятно, что админ с бодуна не туда нажмет, или, например, в команде vmkfstools укажет не тот LUN и снесет все виртуальные машины на томе VMFS (привет, Антон!), чем откажет оборудование с дублированием компонентов. Но все же, рассмотрим это доказательство ниже.
Прежде всего, введем 2 понятия:
AFR – Annualized Failure Rate, то есть вероятность отказа в год (носителя данных или другого компонента), выраженная в процентах.
MTBF – Mean Time Between Failures (среднее время между отказами). Это время в часах.
Эти 2 величины взаимосвязаны и выражаются одна через другую в соответствии с формулой:
AFR = 1/(MTBF/8760) * 100%
Обычно, как HDD, так и SSD накопители, имеют AFR от 0.87% до 0.44%, что дает от 1 000 000 до 2 000 000 часов MTBF. Далее для примера берут диск 10K HDD от Seagate (популярная модель ST1200MM0088), для которой AFR равен 0.44% (см. вторую страницу даташита) или 2 миллиона часов в понятии MTBF. Ну и взяли популярный SSD Intel 3710 для целей кэширования, который также имеет MTBF на 2 миллиона часов.
Для того, чтобы вычислить время доступности данных на таких накопителях, нужно понимать время, которое необходимо для восстановления бэкапа на новый накопитель в случае сбоя. По консервативным оценкам - это 24 часа. Таким образом, доступность данных будет равна:
2 000 000/ (2 000 000 + 24) = 0,99998
То есть, 4 девятки. Но диск - это еще не весь сервис. Есть еще надежность дискового контроллера, самого хост-сервера и стойки в целом (по питанию). VMware запросила данные у производителей и получила следующие параметры доступности:
Вот, доступность уже 3 девятки, что эквивалентно 8,76 часов простоя в год. Не так плохо, но это слишком оптимистичные значения - на деле есть прочие факторы, влияющие на доступность, поэтому уберем последнюю цифру из долей для доступности каждого из компонентов:
Получается 2 девятки, а это 3,65 дня простоя в год, что уже довольно критично для многих бизнесов.
Ну а теперь применим технологию VMware Virtual SAN, которая дублирует данные на уровне виртуальных машин и отдельных виртуальных дисков. Если мы используем параметр FTT (Numbers of failures to tolerate) равный 1, что подразумевает хранение одной реплики данных, то вероятность недоступности хранилища Virtual SAN данных будет равна вероятности отказа 2-х хранилищ одновременно, то есть:
(1-0.997)^2 = 0.00000528
Ну а доступность в данном случае равна:
1-0.00000528 = 0.999994
То есть, уже 5 девяток. Но это доступность для одного объекта VSAN, а отдельная виртуальная машина обычно имеет несколько объектов, допустим, 10. Тогда ее доступность будет равна:
0.999994^10 = 0.99994
В итоге, 4 девятки. Это 52,56 минуты простоя в год. В зависимости от того, сколько объектов у вас будет на одну ВМ, вы будете иметь доступность от 4 до 5 девяток.
А теперь возьмем FTT=2, то есть конфигурацию, когда имеется 2 дополнительных копии данных для каждого объекта в кластере Virtual SAN. В этом случае вероятность полного отказа всех трех копий данных:
(1-0.997)^3 = 0.00000001214
А доступность для ВМ с десятью объектами:
0.999999988^10 = 0.999999879
То есть, те самые 6 девяток, о которых говорится на слайде. Конечно, все это допущения, фантазии и игра с вероятностями, но читать это все равно интересно. Еще более интересно то, что оригинал этой статьи написала женщина)
Таги: VMware, Virtual SAN, HA, VSAN, Enterprise, Blog, Availability, Storage
Компания VMware выпустила очень познавательный документ "An overview of VMware Virtual SAN caching algorithms", который может оказаться полезным всем тем, кто интересуется решением для создания программных хранилищ под виртуальные машины - VMware Virtual SAN. В документе описан механизм работы кэширования, который опирается на производительные SSD-диски в гибридной конфигурации серверов ESXi (то есть, SSD+HDD).
SSD-диски используются как Performance tier для каждой дисковой группы, то есть как ярус производительности, который преимущественно предназначен для обеспечения работы механизма кэширования на чтение (Read cache, RC). По умолчанию для этих целей используется 70% емкости SSD-накопителей, что экспериментально было определено компанией VMware как оптимальное соотношение.
SSD-диски значительно более производительны в плане IOPS (тысячи и десятки тысяч операций в секунду), поэтому их удобно использовать для кэширования. Это выгодно и с экономической точки зрения (доллары на IOPS), об этом в документе есть наглядная табличка:
То есть, вы можете купить диск SSD Intel S3700 на 100 ГБ за $200, который может выдавать до 45 000 IOPS, а это где-то $0,004 за IOPS. С другой же стороны, можно купить за те же $200 диск от Seagate на 1 ТБ, который будет выдавать всего 100 IOPS, что составит $2 на один IOPS.
Кэш на чтение (RC) логически разделен на "cache lines" емкостью 1 МБ. Это такая единица информации при работе с кэшем - именно такой минимальный объем на чтение и резервирование данных в памяти используется. Эта цифра была высчитана экспериментальным путем в исследовании нагрузок на дисковую подсистему в реальном мире, которое VMware предпочитает не раскрывать. Кстати, такой же величины объем блока в файловой системе VMFS 5.x.
Помимо обслуживания кэша на SSD, сервер VMware ESXi использует небольшой объем оперативной памяти (RAM) для поддержки горячего кэша обслуживания этих самых cache lines. Он содержит несколько самых последних использованных cache lines, а его объем зависит от доступной памяти в системе.
Также в памяти хранятся некоторые метаданные, включая логические адреса cache lines, валидные и невалидные регионы кэша, информация о сроке хранения данных в кэше и прочее. Все эти данные постоянно хранятся в памяти в сжатом виде и никогда не попадают в своп. При перезагрузке или выключении/включении хоста кэш нужно прогревать заново.
Итак, как именно работает кэширование на SSD в VMware Virtual SAN:
1. Когда операция чтения приходит к Virtual SAN, сразу же включается механизм определения того, находятся ли соответствующие данные в кэше или нет. При этом запрашиваемые данные за одну операцию могут быть больше одной cache line.
2. Если данные или их часть не находятся в RC, то для них резервируется буфер нужного объема с гранулярностью 1 МБ (под нужное количество cache lines).
3. Новые аллоцированные cache lines вытесняют из кэша старые в соответствии с алгоритмом Adaptive Replacement Cache (ARC), который был лицензирован VMware у IBM.
4. В случае промаха кэша каждое чтение одной cache line с HDD разбивается на чанки размером 64 КБ (этот размер тоже был определен экспериментально в ходе исследований). Это сделано для того, чтобы не забивать очередь на чтение с HDD "жирной" операцией чтения в 1 МБ, которая бы затормозила общий процесс ввода-вывода на диск.
5. В общем случае, одна операция чтения запрашивает лишь часть данных одной cache line, а первыми читаются именно нужные 64 КБ чанки с HDD-диска от этой cache line.
6. Запрошенные с HDD-диска данные сразу отдаются к подсистеме вывода и направляются туда, откуда их запросили, а уже потом в асинхронном режиме они попадают в соответствующие cache lines кэша и под каждую из них выделяется буфер 1 МБ в памяти. Таким образом устраняются потенциальные затыки в производительности.
В документе описаны также и механики работы кэша на запись (Write cache), для которого используется техника write-back, а также рассматриваются All Flash конфигурации. Читайте - это интересно!
Недавно Cormac Hogan написал интересный пост о том, как нужно настраивать "растянутый" между двумя площадками HA-кластер на платформе VMware vSphere, которая использует отказоустойчивую архитектуру Virtual SAN.
Напомним, как это должно выглядеть (два сайта на разнесенных площадках и witness-хост, который обрабатывает ситуации разделения площадок):
Основная идея такой конфигурации в том, что при отказе отдельного хоста или его компонентов виртуальная машина обязательно должна запуститься на той же площадке, где и была до этого, а в случае отказа всей площадки (аварии) - машины должны быть автоматически запущены на резервном сайте.
Откроем настройки кластера HA. Во-первых, он должен быть включен (Turn on vSphere HA), и средства обнаружения сетевых отказов кластера (Host Monitoring) также должны быть включены:
Host Monitoring позволяет хостам кластера обмениваться сигналами доступности (heartbeats) и в случае отказа предпринимать определенные действия с виртуальными машинами отказавшего хоста.
Для того, чтобы виртуальная машина всегда находилась на своей площадке в случае отказа хоста (и использовала локальные копии данных на виртуальных дисках VMDK), нужно создать Affinity Rules, которые определяют правила перезапуска ВМ на определенных группах хостов в рамках соответствующей площадки. При этом эти правила должны быть "Soft" (так называемые should rules), то есть они будут соблюдаться при возможности, но при отказе всей площадки они будут нарушены, чтобы запустить машины на резервном сайте.
Далее переходим к настройке "Host Hardware Monitoring - VM Component Protection":
На данный момент кластер VSAN не поддерживает VMCP (VM Component Protection), поэтому данную настройку надо оставить выключенной. Напомним, что VMCP - это новая функция VMware vSphere 6.0, которая позволяет восстанавливать виртуальные машины на хранилищах, которые попали в состояние All Paths Down (APD) или Permanent Device Loss (PDL). Соответственно, все что касается APD и PDL будет выставлено в Disabled:
Теперь посмотрим на картинку выше - следующей опцией идет Virtual Machine Monitoring - механизм, перезапускающий виртуальную машину в случае отсутствия сигналов от VMware Tools. Ее можно использовать или нет по вашему усмотрению - оба варианта полностью поддерживаются.
На этой же кариинке мы видим настройки Host Isolation и Responce for Host Isolation - это действие, которое будет предпринято в случае, если хост обнаруживает себя изолированным от основной сети управления. Тут VMware однозначно рекомендует выставить действие "Power off and restart VMs", чтобы в случае отделения хоста от основной сети он самостоятельно погасил виртуальные машины, а мастер-хост кластера HA дал команду на ее восстановление на одном из полноценных хостов.
Далее идут настройки Admission Control:
Здесь VMware настоятельно рекомендует использовать Admission Control по простой причине - для растянутых кластеров характерно требование самого высокого уровня доступности (для этого он, как правило, и создается), поэтому логично гарантировать ресурсы для запуска виртуальных машин в случае отказа всей площадки. То есть правильно было бы зарезервировать 50% ресурсов по памяти и процессору. Но можно и не гарантировать прям все 100% ресурсов в случае сбоя, поэтому можно здесь поставить 30-50%, в зависимости от требований и условий работы ваших рабочих нагрузок в виртуальных машинах.
Далее идет настройка Datastore for Heartbeating:
Тут все просто - кластер Virtual SAN не поддерживает использование Datastore for Heartbeating, но такого варианта тут нет :) Поэтому надо выставить вариант "Use datastores only from the secified list" и ничего из списка не выбирать (убедиться, что ничего не выбрано). В этом случае вы получите сообщение "number of vSphere HA heartbeat datastore for this host is 0, which is less than required:2".
Убрать его можно по инструкции в KB 2004739, установив расширенную настройку кластера das.ignoreInsufficientHbDatastore = true.
Далее нужно обязательно установить кое-какие Advanced Options. Так как кластер у нас растянутый, то для обнаружения наступления события изоляции нужно использовать как минимум 2 адреса - по одному на каждой площадке, поэтому расширенная настройка das.usedefaultisolationaddress должна быть установлена в значение false. Ну и нужно добавить IP-адреса хостов, которые будут пинговаться на наступление изоляции хост-серверов VMware ESXi - это настройки das.isolationaddress0 и das.isolationaddress1.
Таким образом мы получаем следующие рекомендуемые настройки растянутого кластера HA совместно с кластером Virtual SAN:
vSphere HA
Turn on
Host Monitoring
Enabled
Host Hardware Monitoring – VM Component Protection: “Protect against Storage Connectivity Loss”
Disabled (по умолчанию)
Virtual Machine Monitoring
Опционально, по умолчанию "Disabled"
Admission Control
30-50% для CPU и Memory.
Host Isolation Response
Power off and restart VMs
Datastore Heartbeats
Выбрать "Use datastores only from the specified list", но не выбирать ни одного хранилища из списка
Ну и должны быть добавлены следующие Advanced Settings:
Интересный сервис по продвижению решения Virtual SAN предлагает компания VMware через своих партнеров. Поскольку сам продукт стоит очень дорого, и мало кого можно на него подписать вот так вот сразу, VMware предлагает воспользоваться услугой VSAN Assessment. Она бесплатна, может быть оказана любым партнером VMware и позволяет получить необходимую конфигурацию аппаратного обеспечения для консолидации существующих виртуальных машин в отказоустойчивых кластерах Virtual SAN (напомним, что емкость там формируется из емкости локальных дисков серверов, являющихся узлами кластеров VSAN).
Суть сервиса такова: партнер регистрирует в закрытой партнерской секции новое обследование инфраструктуры (VSAN Assessment), после чего отправляет инвайт на него потенциальному заказчику. Он, в свою очередь, скачивает готовый виртуальный модуль (Collector Appliance), настраивает его и держит запущенным в течение, по крайней мере, одной недели (минимально).
В течение этого времени происходит сбор профилей рабочей нагрузки по вводу-выводу, на основании чего можно уже нарисовать необходимые ресурсы кластера хранилищ, выбрать нужную модель сервера для узла VSAN и определить требуемое число таких узлов.
Сначала анализируется виртуальная инфраструктура VMware vSphere на площадке клиента:
Затем выводятся рекомендуемые к консолидации в кластере хранилищ виртуальные машины. Также показывается совместимость с типом кластера Virtual SAN (All-flash или гибридная модель, где данные размещаются на магнитных накопителях):
Затем мы видим требуемые ресурсы как для одного узла, так и для всего кластера Virtual SAN, а также видим, какой именно сервер и с какими аппаратными характеристиками имеется в виду (производителя сервера можно выбрать, само собой):
Ну и для того, чтобы заказчика отвлечь от высокой входной цены продукта Virtual SAN, используется метод убеждения по снижению совокупной стоимости владения (TCO - total cost of ownership) при внедрении решения VMware VSAN:
Ну и прямо расписывают вам экономию по годам:
Ну то есть, если вы все же решили потестировать технологию VMware Virtual SAN, обратитесь к своему поставщику - он заведет вам VSAN Assessment и вы сами посмотрите, какие железки рекомендуется использовать именно под ваши нагрузки по вводу-выводу для размещения виртуальных машин.
В документе рассмотрено тестирование производительности 12-узлового кластера Virtual SAN на базе серверов Supermicro в рамках следующей логической архитектуры:
Подробная конфигурация хостов:
В целом инфраструктура тестирования выглядела так:
Для тестов использовалось средство Login VSI (о нем мы уже много писали), которое поставляется вместе с методологией тестирования:
Сводные результаты тестов:
Для получения более подробной информации о результатах по каждому тесту, используемых сценариях и конфигурациях обращайтесь к документу. Все 38 страниц полны картинок, графиков и табличек с цифрами - док составлен очень по делу. Для тех, кто планирует VDI на базе Virtual SAN очень полезный референс, как в плане архитектуры, так и в плане производительности.
Таги: VMware, View, Virtual SAN, VSAN, Storage, HA, VDI, Performance
На днях компания VMware выпустила интересный открытый документ "Virtualizing Microsoft Applications on VMware Virtual SAN", в котором описываются результаты тестирования бизнес-критичных приложений Microsoft в кластере отказоустойчивых хранилищ VMware VSAN.
В документе рассматривается стрессовое тестирование следующих приложений, работающих в кластере Virtual SAN, состоящем из 8 узлов:
Microsoft Exchange 2013 с поддержкой Database Availability Groups (DAG)
Microsoft SQL Server 2014 с включенными AlwaysOn Availability Groups (AAG)
Microsoft SharePoint 2013 как фронтэнд баз данных
Для теста использовалась такая конфигурация серверов:
ESX host CPU - 2 x Intel(R) Xeon(R) CPU E5-2690 v2 @ 3.00GHz 10C (60 GHz)
Результаты тестирования первого узла с ролью Mailbox средствами Jetstress:
Результаты тестирования второго узла с ролью Mailbox:
Результаты теста Load Generator:
Архитектура сервисов Microsoft SQL Server с технологией защиты данных Always On:
Для тестирования SQL Server использовался инструмент DVD Store. Конфигурация виртуальных машин:
Результаты тестов DVD Store.
Ну и в заключение - сводные результаты тестирования:
В итоге утверждается, что приложения Microsoft уровня Tier 1 прекрасно себя чувствуют в кластере VMware Virtual SAN, и их быстродействие мало чем отличается от ситуации, если бы на бэкэнде были аппаратные SAN/NFS-массивы.
Компания VMware анонсировала плагин для мониторинга состояния кластера хранилищ - Virtual SAN 6.0 Health Check Plugin. Напомним, что о возможностях VSAN 6.0 мы писали вот тут.
На самом деле, новый плагин от VMware полезен не только тем, что мониторит состояние компонентов решения во время работы, но и позволяет понять, что вы все развернули и настроили правильным образом, а кластер готов к промышленной эксплуатации. Расскажем о новом плагине на основе описания, которое привел Cormac Hogan.
Плагин состоит из двух компонентов: плагин для vCenter и установочные VIB-пакеты для хостов VMware ESXi. Для vCenter под Windows доступен MSI-установщик плагина, а для vCSA есть соответствующий RPM-пакет. По умолчанию Healthcheck-сервис отключен, когда вы нажмете кнопку "Enable" - на все хосты ESXi установится VIB-пакет агента.
После установки VIB'а, если у вас есть DRS-кластер, хосты будут переходить в Maintenance Mode и перезагружаться, поочередно накатывая обновление. Если DRS-кластера нет, то придется делать это вручную.
После установки агентов, вы будете видеть состояние основных компонентов в разделе Monitor > Virtual SAN:
Важный момент - плагин проверяет совместимость вашего оборудования с требованиями VMware Compatibility Guide к кластеру Virtual SAN, что обычно является головной болью администраторов vSphere. Если vCenter имеет доступ в интернет, то можно напрямую загрузить базу данных HCL, если же нет - ее можно скачать вручную и импортировать.
Прикольная функция - каждая проверка привязана к базе знаний VMware, поэтому если у вас загорелось предупреждение или ошибка, можно нажать кнопку "Ask VMware", и откроется страничка с подробной информацией по теме:
Интересно также то, что Virtual SAN Health Check Plugin ведет себя не только реактивно, реагируя на возникающие ошибки, но и способен выполнять набор проактивных тестов. Например, это может быть полезно, когда нужно проверить кластер хранилищ перед его вводом в промышленную эксплуатацию - проверить состояние виртуальных машин, эффективную ширину канала между узлами и т.п. Ну и, конечно, же полезно посмотреть результаты теста производительности, они будут показаны в колонках IOPS и Latency:
Кстати, можно регулировать время выполнения теста.
Также есть еще одна важная и полезная вещь - поддержка Support Assistant. Если у вас есть открытый Service Request (SR), логи могут быть загружены через Support Assistant и ассоциированы с вашим SR.
Как вы знаете, недавно вышла новая версия платформы виртуализации VMware vSphere 6.0, для которой было также обновлено средство создания кластеров хранилищ VMware Virtual SAN 6.0 на базе локальных дисков серверов. Среди прочих новых возможностей VSAN, было сказано об улучшении производительности решения, что и решили проверить коллеги на тестах вот тут.
Тест проводился дома и не претендует на какую-либо достоверность, но, все же, его весьма интересно посмотреть. Автор взял 3 узла Shuttle SZ87R6 следующей конфигурации (надо отметить, что они не в HCL):
Для тестирования были использованы следующие гипервизоры:
ESXi 5.5 Update 2 (build 2068190)
ESXi 6.0 (build 2494585)
В качестве средства создания нагрузки взяли IOmeter, размещенный в виртуальной машине с двумя vCPU, 4 ГБ памяти и Windows Server 2012 в качестве гостевой ОС. Было также сконфигурировано 2 дополнительных виртуальных диска на контроллере PVSCSI:
Для IOmeter было создано три профиля нагрузки, размер Working Set - 100 МБ (204800 секторов). Малый размер Working Set был выбран для более быстрого прогрева кэша.
Profile 1
Profile 2
Profile 3
Worker 1
vDisk 1
vDisk 1
vDisk 1
Sectors
204800
204800
204800
Outst. IO
16
16
16
Worker 2
vDisk 2
vDisk 2
vDisk 2
Sectors
204800
204800
204800
Outst. IO
16
16
16
Read
100%
0%
65%
Write
0%
100%
35%
Random
100%
100%
60%
Sequential
0%
0%
40%
Block size
4 KB
4 KB
4 KB
Alignment
4096 B
4096 B
4096 B
Результаты (кликабельно):
Как мы видим, VSAN 6.0 показал себя лучше при всех типах нагрузки - выжимает больше IOPS и имеет меньшую задержку (latency), а именно:
VSAN 5.5 (он же 1.0) использует формат vmfsSparse, который, по-сути, является redo-логом. В версии VSAN 6.0 появился новый формат снапшота vsanSparse, который использует механизм redirect-on-write (подробнее тут).
Тест проводился просто - запустили IOmeter (профиль 3) и последовательно снимали снапшоты, наблюдая производительность с помощью VSAN Observer.
Светло-серые картинки - это VSAN 1.0 (5.5), а темно-серые - VSAN 6.0 (кликабельно). Обратите внимание, что значения по осям X и Y на картинках не всегда соответствуют.
Итак, Latency:
Кстати, временами по latency VSAN 6.0 хуже своей предыдущей версии.
По IOPS результаты интереснее:
При создании нагрузки в виде снапшотов VSAN 6.0 снижает производительность по IOPS на 8%, а вот предыдущая версия VSAN - на 49%. Преимущества нового формата очевидны.
Полоса пропускания (Bandwidth):
Интересный эффект - в VSAN 1.0 существенно увеличивается трафик на чтение после снятия каждого снапшота, при этом у VSAN 6.0 такого не происходит. Еще одно улучшение Virtual SAN 6.0.
В целом можно отметить, что производительность кластеров VSAN заметно возрасла, ну а оптимизация снапшотов улучшит и производительность процессов, использующих эту технологию (например, резервное копирование).