Российское ПО

VMware

Veeam

StarWind

vStack

Microsoft

Citrix

Symantec

Все самое нужное о виртуализации и облаках

Более 6530 заметок о VMware, AWS, Azure, Veeam, Kubernetes и других

VM Guru | Ссылка дня: Полный список лабораторных работ VMware Hands-on Labs

Можно ли реплицировать или создать снапшот вашего виртуального модуля vSAN Stretched Cluster Witness для быстрого восстановления?

Дункан Эппинг в своей статье ответил на этот вопрос. Он стал замечать, что этот вопрос возникает всё чаще: можно ли реплицировать или создавать снапшот виртуального модуля vSAN Stretched Cluster Witness для быстрого восстановления? Обычно люди задают его потому, что не могут соблюсти требование трёх площадок для vSAN Stretched Cluster. Поэтому, настроив какой-то механизм репликации с низким RPO, они пытаются снизить этот риск.

Возможно, этот вопрос возникает из-за недостаточного понимания того, какую роль выполняет Witness. Он обеспечивает механизм кворума, а этот механизм помогает определить, какая площадка получает доступ к данным в случае сетевого сбоя (ISL) между площадками хранения данных.

Так почему же виртуальное устройство Witness нельзя снапшотить или реплицировать? Дело в том, что для обеспечения механизма кворума Witness Appliance хранит witness-компонент для каждого объекта. Причём не для каждой площадки и не для каждой виртуальной машины, а для каждого объекта! То есть если у вас есть ВМ с несколькими VMDK, то для одной ВМ на Witness Appliance будет храниться несколько witness-объектов.

Этот witness-объект содержит метаданные и с помощью номера последовательности журнала (log sequence number) определяет, какой объект содержит самые актуальные данные. И вот здесь возникает проблема. Если вы откатите Witness Appliance к более раннему моменту времени, то witness-компоненты также откатятся назад и будут иметь другой номер последовательности журнала, чем ожидается. В результате vSAN не сможет сделать объект доступным для выжившей площадки или для той площадки, которая должна обладать кворумом.

Итак, краткий вывод: следует ли реплицировать или создавать снапшот Witness Appliance? Нет!

Таги: VMware, vSAN, Snapshots, Storage, HA, DR

Улучшенные снапшоты в решении VMware vSAN Data Protection

Стратегии защиты данных часто включают снапшоты в той или иной форме. Они могут быть важной частью комплексной стратегии защиты данных 3-2-1, а также дополнять официальные практики защиты данных, делая операции восстановления более удобными. Однако снапшоты могут создавать технические проблемы и ограничения, которые влияют на их использование в производственных средах.

С выпуском VMware vSAN 8 U3 в составе Cloud Foundation 5.2, компания VMware представила защиту данных vSAN. Основанная на революционной архитектуре vSAN Express Storage Architecture (ESA), она представляет собой значительное изменение в способности клиентов защищать, восстанавливать и клонировать виртуальные машины с использованием знакомого им программного обеспечения.

Новые возможности с улучшенными снапшотами

Основа защиты данных vSAN заключается в механизме создания снапшотов, представленного в составе vSAN ESA. Дизайн vSAN ESA позволил инженерам разработать совершенно новый механизм создания снапшотов с нуля, отказавшись от старого подхода на основе redo-log, который использовался в оригинальной архитектуре хранения данных. Новый механизм создания снапшотов в vSAN ESA основан на запатентованной лог-структурированной файловой системе (LFS) и высокоэффективных структурах метаданных.

Различные формы лог-структурированных файловых систем широко распространены сегодня, но VMware имеет уникальную историю с этой технологией, так как Мендель Розенблюм, соучредитель VMware, первым внедрил лог-структурированную файловую систему еще в 1992 году. Файловая система LFS в vSAN новаторская по нескольким направлениям. Она реализована на основе объектов, что позволяет добиться более тонкого уровня управления по сравнению с монолитными подходами. Она также распределенная, что обеспечивает масштабируемость и гибкость, обычно ассоциируемые с распределенными системами.

Механизм создания снапшотов в vSAN ESA позволяет хранить снапшоты практически без потери производительности. Преимущества аналогичны снапшотам на основе массивов (storage-based snapshots), которые часто хвалят за их эффективность и производительность. Но снапшоты vSAN ESA имеют некоторые отличительные преимущества перед снапшотами на основе массивов, которые существенно влияют на их полезность в производственной среде.

Проблемы снапшотов на основе массивов

Наиболее распространенный способ представления ресурсов емкости в хранилищах — через тома LUN. В сочетании с кластерной файловой системой, такой как VMFS, это позволяет разместить десятки или сотни различных ВМ и их файлов на одном LUN для использования хостами vSphere, подключенными к хранилищу данных. Хотя это работало достаточно хорошо в течение многих лет, но у этого подхода есть некоторые присущие проблемы.

1. Единица управления. Хотя вас могут интересовать несколько конкретных ВМ в LUN, массив рассматривает данные в LUN целиком. Снапшот на основе массива захватывает все измененные данные в LUN, включая ВМ, которые вы, возможно, не хотели бы захватывать. Это может увеличить потребление емкости и усложнить восстановление.

2. Создание и координация снапшотов. Неестественная единица управления, предоставляемая LUN, — это лишь часть проблемы при создании снапшотов. Механизмы создания снапшотов на основе массива не имеют осведомленности о самой ВМ или о том, когда операции ввода-вывода инициированы ВМ. Дополнительные операции могут потребоваться для захвата снимка всего LUN, чтобы ввод-вывод сохранялся в согласованном состоянии. Это означает, что в зависимости от обстоятельств гипервизор может приостанавливать каждую ВМ, использующую этот LUN, чтобы массив мог захватить ВМ в согласованном состоянии. Это требует времени и точной координации.

3. Восстановление снапшотов. Восстановление ВМ до предыдущего состояния с использованием снапшота на основе массива обычно включает несколько шагов для временного представления LUN хостам без вмешательства в существующие ВМ. Текущую ВМ нужно удалить, а старую ВМ скопировать в новое место и перерегистрировать в vCenter Server, после чего отсоединить временный LUN и выполнить другие операции очистки. Это процесс, который может быть трудоемким и подверженным ошибкам.

Привязка к LUN и отсутствие осведомленности об операциях ввода-вывода ВМ часто приводят к увеличению сложности операций. vSAN решает задачу создания снапшотов более эффективным способом.

Более эффективный подход к созданию снимков данных

Снимки в vSAN ESA обладают возможностями, аналогичными снапшотам на основе массивов, но без многих проблем. Как отмечено в посте vSAN Objects and Components Revisited, vSAN хранит данные, аналогичные объектному хранилищу. vSAN использует набор отдельных объектов, представляющих аспекты ВМ, такие как виртуальные диски (VMDK). Эта меньшая гранулярность данных в vSAN обеспечивает лучшую доступность, масштабируемость и управление. Но эта модель имеет значительное преимущество при создании снапшотов ВМ.

Единица управления: снапшоты ESA создаются для каждой ВМ. Пользователи сфокусированы именно на машинах, поэтому имеет смысл делать это таким образом. При создании снимков ESA изменения, отслеживаемые после создания снапшота, касаются только ВМ с этим снапшотом.

Создание и координация снапшотов: поскольку vSAN является частью гипервизора, он полностью видит и контролирует путь данных ВМ. Это позволяет механизму создания снапшотов создавать их, гарантируя, что данные фиксируются в состоянии согласованности после сбоя без остановки ВМ. Это быстро и совершенно прозрачно для пользователя.

Восстановление снапшотов: независимо от того, восстанавливаете ли вы существующую ВМ на предыдущий момент времени или восстанавливаете удаленную ВМ, процесс восстановления прост и интуитивно понятен. Восстанавливайте ВМ легко прямо в интерфейсе vSphere в vCenter Server.

Снапшоты, выполненные на уровне ВМ, являются более значимой единицей управления для клиентов. Этот подход не только более интуитивен, но и намного эффективнее, так как делает снапшоты только тех ВМ, которые вам нужны, а не всё на томе LUN.

Лучший подход к защите данных

Однако быстрый и масштабируемый механизм создания снапшотов был недостаточным. Клиенты хотели использовать снапшоты для восстановления и манипуляции данными, а также планировать задачи и сохранять снапшоты автоматически. Они хотели сделать это легко и интегрировать со средствами vCenter Server. Это то, что VMware реализовала в vSAN Data Protection.

Защита данных vSAN предоставляет клиентам то, что они всегда хотели

Легкий в использовании, эффективный и интегрированный способ защиты данных, встроенный в уже известное программное обеспечение. VMware не только достигли этого, но и благодаря архитектуре внедрили инновации, делающие его удобным и гибким.

Экстремально быстрые операции

Cнапшоты на уровне ВМ делают операции простыми и быстрыми. vSAN контролирует ввод-вывод по всей цепочке, минимизируя задержки при создании и восстановлении снимков.

Масштабируемость снапшотов

vSAN Data Protection поддерживает до 200 снапшотов на ВМ, преодолевая ограничение в 32 снапшота при использовании традиционных методов в vCenter Server и API на основе VADP.

Динамическая группировка

Основой использования vSAN Data Protection являются «группы защиты» (protection groups). Это логические контейнеры, в которых можно группировать несколько ВМ для легкого и повторяемого создания и управления снапшотами. В пределах группы защиты можно определить политику, например, частоту защиты и расписание хранения. ВМ могут быть назначены статически или динамически с использованием символов подстановки «*» и «?». Например, назначение членства с помощью «SQL-*» позволяет защитить все ВМ с именем, включающим «SQL-».

Опциональная неизменяемость данных

Снапшоты могут быть сделаны неизменяемыми, что означает, что снапшот нельзя изменить или удалить. Эта опция, доступная в настройках группы защиты, обеспечивает базовую защиту от злонамеренных действий и интегрируется с VMware Live Cyber Recovery (VLCR), комплексным решением для защиты от вымогателей.

Защита системы

Снимки могут увеличивать потребление емкости, если скорость изменения данных и частота создания снапшотов высоки. Для защиты от непреднамеренных проблем с потреблением данных vSAN Data Protection приостанавливает создание снапшотов, если достигнуто 70% емкости кластера. Также автоматически истекают снапшоты пытающиеся превысить лимит в 200 снимков на ВМ.

Практическое использование vSAN Data Protection

Хотя технология впечатляет, важен результат. Легкая защита должна сочетаться с легким оперативным восстановлением для использования в реальных сценариях. Вот несколько примеров использования vSAN Data Protection:

1. Возврат существующих ВМ к предыдущему состоянию. Быстрое восстановление ВМ, которые могли быть случайно неправильно настроены, неудачно обновлены или подверглись подозрительной деятельности.
2. Восстановление удаленных ВМ. Легко восстановите ВМ, которые больше не зарегистрированы в vCenter Server, что помогает защититься от случайного или злонамеренного удаления ВМ.
3. Клонирование ВМ. Быстрое создание клона ВМ из снимка, что может быть простым и эффективным способом иметь несколько копий данных.
4. Защита от вымогателей. vSAN Data Protection можно использовать с VMware Live Cyber Recovery (VLCR), чтобы легко создать комплексное решение для защиты и восстановления от вымогателей.

На данный момент vSAN Data Protection ограничивается предоставлением локальной защиты ВМ. Но это может быть идеальным дополнением к существующим и более комплексным стратегиям резервного копирования 3-2-1. Для получения дополнительной информации и ответов на часто задаваемые вопросы, ознакомьтесь с vSAN Data Protection FAQs.

Заключение

vSAN Data Protection представляет собой лучший способ защиты и восстановления виртуальных машин. Она использует возможности vSAN ESA, чтобы предоставить преимущества, которые трудно достичь с внешними подходами на основе массивов. И, что самое главное, vSAN Data Protection уже доступна в вашей лицензии VCF.

Таги: VMware, vSAN, Snapshots

Удаление снапшотов старше заданного количества дней в VMware vSphere 8 Update 3

Среди новых возможностей последнего обновления платформы виртуализации VMware vSphere 8 Update 3 появилась интересная новая функция, которая позволяет удалять снапшоты виртуальных машин, которые старше некоторого количества дней, которое задается при выполнении этой операции.

Если же вы хотите более глубокого уровня автоматизации, то вы можете применять политики snapshot retention policies с использованием виртуального модуля VMware Event Broker Appliance (VEBA).

Вы можете объединить эту новую возможность в vSphere 8.0 Update 3 с существующей задачей планирования vSphere (Scheduled Tasks), которая периодически очищает существующие снимки, и администраторы теперь имеют дополнительную возможность для быстрой установки возраста снимка, который нужно удалить, без необходимости создавать или полагаться на пользовательский скрипт, который должен быть создан вне сервера vCenter.

Хотя это может показаться незначительной функцией, она определенно улучшает управление операциями для администраторов, позволяя им гарантировать оптимальную работу и не беспокоиться о том, что снимок виртуальной машины сохранится дольше, чем это требуется по политикам.

Таги: VMware, vSphere, Snapshots, Update

Как через получить список всех снапшотов в VMware vSphere (и их размер) с помощью PowerCLI и RVTools

Администраторы часто ищут способ, как получить список всех снапшотов в окружении VMware vSphere, поскольку они засоряют хранилище и могут потенциально замедлить работу виртуальных машин, а также привести к их сбоям (здесь золотое правило - не использовать пользовательские снапшоты в качестве бэкапов).

Для этих целей можно использовать специализированные утилиты, такие как RVTools, а можно воспользоваться фреймворком PowerCLI. Там вы можете выполнить одну простую команду:

Get-VM | Get-Snapshot | Select VM, Name, Created, SizeMB, SizeGB

А вот так выглядит список снапшотов в RVTools на вкладке vSnapshot:

Таги: VMware, vSphere, Snapshot, PowerCLI, RVTools

Работа со снапшотами виртуальных машин в решении VMware Aria Operations

Многие администраторы VMware vSphere применяют решение Aria Operations (бывший продукт vRealize Operations) для мониторинга и управления компонентами виртуальной инфраструктуры. Сегодня мы посмотрим, как с помощью этого продукта можно выявлять снапшоты, которые часто становятся причиной проблем с производительностью виртуальных машин на платформе vSphere. Об этом написал Brock Peterson.

Самый частый вопрос - это какие ВМ имеют снапшоты, насколько большого они размера, и как давно они были сделаны. Aria Operations предоставляет возможности по нахождению снапшотов, а также получению их метрик и свойств.

Здесь мы можем видеть размер снапшота, кто его создал, а также сколько ему дней и другие параметры. Например, теперь мы хотим получить число снапшотов, а также число таких снапшотов, которые старше двух дней. Сделать это можно с помощью суперметрик (Super Metrics). Для этого нужно определить их в соответствующем разделе:

Суперметрики можно скачать вот тут. Их можно использовать в дэшбордах, представлениях (Views) и в определениях алертов (Alert Definitions). Также вы можете скачать различные дэшборды, касающиеся снапшотов, а Brock также написал собственный, который использует суперметрики, упомянутые выше.

В итоге вы увидите список виртуальных машин, в котором есть число снапшотов для каждой ВМ, а также их число старше двух дней. Суперметрики вы можете изменять в соответствии со своими потребностями.

Также можно использовать эти супер метрики для создания определений алертов:

Триггеры алертов срабатывают при нахождении ВМ, у которых найдено более одного снапшота. Также Broke добавил действие для них (в данном случае - удаление), которое можно выполнить при срабатывании алерта в Aria Operations.

Таги: VMware, Aria, Operations, Snapshots

Пересоздание дескрипторных файлов VMDK для основных дисков и их снапшотов в виртуальных машинах VMware vSphere

Иногда при работе администратора с виртуальными машинами VMware vSphere происходит ошибка при работе с дескрипторными файлами дисков VMDK, которая проявляет себя следующим образом:

Диск ВМ показывается в Datastore Browser, но иконка для него отсутствует
При включении ВМ вы получаете ошибку " File not found"
Сам файл ВМ вида <имя ВМ>-flat.vmdk есть в директории с машиной, но файла <имя ВМ>.vmdk вы не видите
Сам файл <имя ВМ>.vmdk отсутствует, либо он есть, но его содержимое повреждено

Эти симптомы могут возникать по разным причинам, но суть их одна - дескрипторный файл ВМ поврежден или отсутствует. Ситуация поправима, если у вас есть основный диск с данными - <имя ВМ>-flat.vmdk, и он сохранился в целости.

В 2012 году мы писали о том, как быть, если у вас возникла проблема с дескрипторным файлом виртуальной машины в среде VMware vSphere. В целом, с тех времен ничего особо не поменялось. Процесс этот довольно простой и описан в KB 1002511, также он детально разобран в видео ниже:

Часть 1 - восстановление основного VMDK виртуальной машины

Перед выполнением операций ниже обязательно сохраните полную копию папки виртуальной машины, и только после этого проводите все описанные ниже операции. Если у вас есть резервная копия виртуальной машины, и ее восстановление вас устраивает - то лучше сделать эту операцию вместо описанной ниже процедуры исправления дисков, так как вероятность ошибиться в ней велика.

Если вкратце, то для восстановления вам нужно выполнить следующие шаги:

1. Соединяемся с хостом VMware ESXi по SSH как root. Либо операции можно проводить непосредственно в консоли DCUI.

2. Переходим в папку с ВМ и определяем геометрию основного диска VMDK с данными <имя ВМ>-flat.vmdk

Делается это командой:

# ls -l <имя диска>-flat.vmdk

На выходе мы получим размер диска в байтах. Вывод будет выглядеть примерно так:

-rw------- 1 root root 4294967296 Oct 11 12:30 vmdisk0-flat.vmdk

3. Теперь нужно пересоздать заголовочный файл VMDK (<имя ВМ>.vmdk), чтобы он соответствовал диску с данными, используя тот же размер диска, полученный на предыдущем шаге:

# vmkfstools -c 4294967296 -a lsilogic -d thin temp.vmdk

После этого переименовываем дескрипторный VMDK-файл созданного диска в тот файл, который нам нужен для исходного диска. Затем удаляем только что созданный пустой диск данных нового диска, который уже не нужен (temp-flat.vmdk).

4. Открываем переименованный дескрипторный файл VMDK и меняем выделенные красным строчки:

# Disk DescriptorFile version=1 CID=fb183c20 parentCID=ffffffff createType="vmfs" # Extent description RW 8388608 VMFS "vmdisk0-flat.vmdk" # The Disk Data Base #DDB ddb.virtualHWVersion = "4" ddb.geometry.cylinders = "522" ddb.geometry.heads = "255" ddb.geometry.sectors = "63" ddb.adapterType = "lsilogic" ddb.thinProvisioned = "1"

Если у изначальной машины диск был не растущим по мере наполнения (thin disk), то последнюю строчку, выделенную красным, можно не добавлять.

Вы также можете поменять тип адаптера ddb.adapterType = lsilogic на ddb.adapterType = pvscsi, если вы использовали паравиртуализованный SCSI-контроллер для исходной ВМ.

Консистентность виртуальной машины можно проверить командой:

vmkfstools -e filename.vmdk

Если все в порядке, то в ответе команды вы получите вот такую строчку:

Disk chain is consistent.

Если же исправить ситуацию не получилось, то будет вот такой текст:

Disk chain is not consistent : The parent virtual disk has been modified since the child was created. The content ID of the parent virtual disk does not match the corresponding parent content ID in the child (18).

После этого можно запускать виртуальную машину, добавив ее повторно в окружение vSphere Client.

Часть 2 - исправление дескрипторов файлов снапшотов ВМ (delta-файлы)

Ситуация усложняется, когда у исходной виртуальной машины были снапшоты, тогда папка с ней выглядит следующим образом (красным выделены важные для нас в дальнейших шагах файлы):

drwxr-xr-x 1 root root 1400 Aug 16 09:39 . drwxr-xr-t 1 root root 2520 Aug 16 09:32 .. -rw------- 1 root root 32768 Aug 17 19:11 examplevm-000002-delta.vmdk -rw------- 1 root root 32768 Aug 17 19:11 examplevm-000002.vmdk -rw------- 1 root root 32768 Aug 16 14:39 examplevm-000001-delta.vmdk -rw------- 1 root root 32768 Aug 16 14:39 examplevm-000001.vmdk -rw------- 1 root root 16106127360 Aug 16 09:32 examplevm-flat.vmdk -rw------- 1 root root 469 Aug 16 09:32 examplevm.vmdk -rw------- 1 root root 18396 Aug 16 14:39 examplevm-Snapshot1.vmsn -rw------- 1 root root 18396 Aug 17 19:11 examplevm-Snapshot2.vmsn -rw------- 1 root root 397 Aug 16 09:39 examplevm.vmsn -rwxr-xr-x 1 root root 1626 Aug 16 09:39 examplevm.vmx -rw------- 1 root root 259 Aug 16 09:36 examplevm.vmxf

Основной порядок действий в этой ситуации приведен в KB 1026353, здесь же мы опишем его вкратце (кстати, напомним про необходимость сделать полный бэкап всех файлов ВМ перед любыми операциями):

1. Определяем нужные нам файлы

Итак, заголовочные файлы снапшотов ВМ хранятся в так называемых файлах типа vmfsSparse, они же работают в связке с так называемым delta extent file, который непосредственно содержит данные (выше это, например, examplevm-000001-delta.vmdk).

Таким образом, опираясь на пример выше, нам интересны заголовочные файлы снапшотов examplevm-000001.vmdk и examplevm-000002.vmdk. Помните также, что диски и их снапшоты могут находиться в разных папках на разных датасторах, поэтому сначала вам нужно понять, где и что у вас хранится. Если у вас есть сомнения касательно имен нужных вам файлов, вы можете заглянуть в лог-файл vmware.log, чтобы увидеть там нужные пути к датасторам.

2. Создаем новый дескриптор снапшота

Итак, представим теперь, что файл examplevm-000001.vmdk у нас поврежден или отсутствует. Создадим новый дескриптор снапшота из исходного заголовочного файла examplevm.vmdk простым его копированием:

# cp examplevm.vmdk examplevm-000001.vmdk

3. Меняем указатели на файл с данными для снапшота

Теперь нужно открыть созданный файл в текстовом редакторе и начать его исправлять. Пусть он выглядит вот так:



# Disk DescriptorFile

  version=1

  encoding="UTF-8"

  CID=19741890

  parentCID=ffffffff

  createType="vmfs"
# Extent description

  RW 31457280 VMFS "examplevm-flat.vmdk"
# The Disk Data Base

  #DDB

ddb.virtualHWVersion = "7"ddb.longContentID = "5fd87dda1dc77cafd5be881a19741890" ddb.uuid = "60 00 C2 9e 3d 8d 45 82-dd 1f e4 93 22 da 9c 61" ddb.geometry.cylinders = "1958" ddb.geometry.heads = "255" ddb.geometry.sectors = "63" ddb.adapterType = "lsilogic"

Красным мы выделили то, что будем в этом файле изменять, а синим - то, что будем удалять.

С данным файлом нужно сделать следующие манипуляции:

Строчку CID=19741890 заменяем на случайное восьмизначное значение (это идентификатор диска)
Строчку parentCID=ffffffff заменяем на parentCID=19741890 (идентификатор родительского диска, им может быть не только родительский основной диск, но и родительский снапшот, то есть его дескриптор)
Строчку createType="vmfs" заменяем на createType="vmfsSparse"
Строчку RW 31457280 VMFS "examplevm-flat.vmdk" заменяем на RW 31457280 VMFSSPARSE "examplevm-000001-delta.vmdk" (обратите внимание, что номер 31457280 остается тем же - он должен быть тем же самым для всей цепочки дочерних дисков)

4. Добавляем данные специфичные для снапшота

Теперь нам надо добавить в указатель снапшота кое-что новое:

Под строчкой createType="vmfsSparse" добавляем строчку parentFileNameHint="examplevm.vmdk"

Ну и теперь надо убрать лишнее. Удаляем из файла следующие строчки, которые нужны только для основного родительского диска:


ddb.virtualHWVersion = "7"

ddb.uuid = "60 00 C2 9e 3d 8d 45 82-dd 1f e4 93 22 da 9c 61"

ddb.geometry.cylinders = "1958"

ddb.geometry.heads = "255"

ddb.geometry.sectors = "63"

ddb.adapterType = "lsilogic"

Ну а вот эту строчку нужно оставить:

ddb.longContentID = "5fd87dda1dc77cafd5be881a19741890"

Таким образом, содержимое результирующего файла должно быть следующим:

# Disk DescriptorFile version=1 encoding="UTF-8" CID=7f3a1e17 parentCID=19741890 createType="vmfsSparse" parentFileNameHint="examplevm.vmdk" # Extent description RW 31457280 VMFSSPARSE "examplevm-000001-delta.vmdk" # The Disk Data Base #DDB ddb.longContentID = "5fd87dda1dc77cafd5be 881a19741890"

После этого вы можете попробовать запустить машину с дочерним снапшотом. Но перед этим также проверьте интеграцию дескриптора командой:

vmkfstools -e filename.vmdk

Ну и помните, что все эти действия по цепочке вы можете провернуть для следующих уровней дочерних снапшотов, если их диски с данными в порядке. Главное - не забывайте делать резервные копии перед любыми операциями!

Таги: VMware, vSphere, VMDK, Snapshots, Snapshot, Storage, ESXi, Bugs

Высокопроизводительные снапшоты Native Snapshots в рамках архитектуры vSAN Express Storage Architecture (ESA)

В конце лета этого года компания VMware провела конференцию Explore 2022, где представила новую версию решения для создания отказоустойчивых хранилищ VMware vSAN 8. Главным нововведением обновленной платформы стала архитектура Express Storage Architecture (ESA), которая позволяет достичь максимальных показателей производительности и эффективности на базе высокопроизводительных систем хранения. Сегодня мы посмотрим, какие улучшения механизма работы снапшотов появились в vSAN, работающем в ESA-варианте.

Еще много лет назад мы писали о том, что снапшоты - это зло, и использовать их нужно с большой осторожностью и при большой необходимости. Например, перед обновлением виртуального аппаратного обеспечения, ОС или критичных приложений можно сделать снапшот, проверить что все в порядке после обновления, а затем удалить его.

Снапшоты, создаваемые для специфических целей администраторов, часто разрастаются в разных ветках, что в итоге приводит к падению производительности виртуальной машины и операционным сложностям при консолидации (например, недостаток места). При этом снапшоты - это вещь нужная для таких процессов, как резервное копирование и автоматизированные рабочие процессы Continuous Integration/Continuous Delivery (CI/CD), Copy Data Management (CDM), а также управление виртуальными ПК VMware Horizon.

Часто в большой инфраструктуре VMware vSphere можно обязательно найти вот такую машину, которая "почему-то тормозит":

Традиционно снапшоты в VMware vSphere строились на базе технологии redo-log (дельта диск отличий от основного VMDK), которая имеет ограничения по масштабируемости и производительности. Снапшоты типа VMFSsparse использовались по умолчанию в файловой системе VMFS5 для дисков менее 2 ТБ и для всех дисков на системах до VMFS5.

VMFSsparse работает поверх VMFS как redo-log, который создается пустым, как только для ВМ создается снапшот, и растет до размера родительского VMDK-диска, накапливая данные. Начиная с VMFS5, для дисков более 2 ТБ и для всех дисков VMFS6 был добавлен формат снапшота VMFS SEsparse. Это эволюционное изменение снапшотов, которое давало улучшения в плане склеивания снапшотов и в отношении их больших цепочек, где ранее происходила потеря производительности.

Также для SEsparse снапшотов было сделано множество улучшений в новых версиях vSphere, например, при чтении данных для машин со снапшотами была существенно увеличена производительность: чтение идет сразу из нужного VMDK, минуя всю цепочку снапшотов при каждом обращении, в отличие от того, как это было сделано раньше. Все это снижает latency на чтение:

Также были сделаны некоторые оптимизации "подмораживания" (stun) при различного рода операциях со снапшотами, а также специфические технологии, такие как Mirror driver, но концептуально суть снапшотов не поменялась. Поэтому VMware продолжала давать рекомендации не хранить их более 48 часов и не создавать длинных цепочек снапшотов, особенно для критичных нагрузок.

Архитектура снапшотов в vSAN базируется на традиционных redo-log снапшотах, которые были доработаны - так появился формат vsanSparse (начиная с vSAN 6). Он использует механизм redirect-on-write и снижает некоторые технические ограничения снапшотов за счет кэширования, но проблемы подмораживания и долгого времени удаления снапшотов остаются.

В новой версии vSAN 8 при использовании архитектуры ESA, снапшоты используются совершенно другим образом, нежели в прошлых версиях платформы. Вместо использования традиционной цепочки базового и дельта-дисков, механизм снапшотов использует lookup table, применяя структуры B-Tree.

Файловая система log structured file system в vSAN ESA позволяет новым операциям записи помещаться в новые сегменты хранилища с их указателями метаданных, интеллектуально размещая их в соответствии с принадлежностью к снапшотам. В этом случае время удаления снапшота снижается более чем в 100 раз по сравнению с прошлыми версиями платформы vSAN.

Также новая архитектура снапшотов снижает и накладные расходы на вычисления и перемещения данных, которые происходят при удалении снапшотов (а это были одни из самых нагружающих инфраструктуру операций). По-сути, когда в vSAN 8 удаляется снапшот, происходит лишь удаление метаданных, а физического перемещения блоков не происходит.

Мало того, пользователь получает подтверждение удаления снапшота сразу же, а удаление данных и метаданных происходит позже, в асинхронном режиме. Новая архитектура снапшотов ESA позволяет использовать практически неограниченное количество снапшотов - однако текущие параметры платформы vSphere ограничивают число снапшотов числом 32 на один объект.

Как знают администраторы VMware vSphere, решения для резервного копирования используют снапшоты через vSphere Storage API (также называемые VADP) для передачи резервных копий на хранилища. Новая функциональность vSAN ESA автоматически заменит старый механизм снапшотов, а пользователи увидят реальный прирост производительности при консолидации снапшотов, а также при работе продуктов VMware SRM и vSphere Replication в кластерах ESA.

Таги: VMware, vSAN, Update, Snapshots, Storage, ESA, Performance

Обновился документ о производительности снапшотов VMware vSphere Snapshots: Performance and Best Practices

В конце лета прошлого года мы писали об интереснейшем документе "VMware vSphere Snapshots: Performance and Best Practices", который содержит весьма полезную многим администраторам информацию о производительности снапшотов, а также лучшие практики по обращению с ними. Мы, кстати, часто пишем про это (1, 2, 3), и хорошо, что теперь об этом есть и подробный документ с картинками.

В конце года VMware решила обновить этот whitepaper, добавив туда немного информации о производительности снапшотов в инфраструктуре контейнеризованных приложений Kubernetes на платформе vSphere.

Тестовая конфигурация там выглядела вот так:

Соответственно, процедура тестирования выглядела так:

Снимаем базовый уровень производительности для ВМ worker-ноды без снапшотов под нагрузкой
Создаем снапшот ВМ worker-ноды
Запускаем бенчмарк и получаем данные о производительности
Увеличиваем по одному число снапшотов и повторяем цикл тестирования

Тестировались приложения Weathervane и Redis. Результаты показали, что даже при большом количестве снапшотов производительность не падает:

Больше подробностей вы можете узнать в обновленном документе "VMware vSphere Snapshots: Performance and Best Practices".

Таги: VMware, Whitepaper, Performance, Snapshots, Update

Наконец-то интересный документ о производительности снапшотов - VMware vSphere Snapshots: Performance and Best Practices

Среди открытых документов VMware появился очень интересный док - "vSphere Snapshots: Performance and Best Practices", в котором рассматривается весьма полезные многим администраторам аспекты - производительность снапшотов, а также, как правильно с ними обращаться. Мы часто пишем про это (1, 2, 3), а вот теперь есть и хороший документ с картинками.

Основные темы документа:

Что такое снапшоты
Какие есть форматы снапшотов
Описание тестового окружения и рабочих нагрузок
Результаты тестирования производительности
Выводы по этим результатам

Итак, для тестирования использовались следующие рабочие нагрузки:

FIO (стандартный тест производительности ввода-вывода)
JVM (бенчмарк SPECjbb 2015)
OLTP database (тест HammerDB)

Давайте взглянем на результаты тестирования производительности с точки зрения гостевой системы и ее приложений:

1. Число выдаваемых IOPS в зависимости от количества снапшотов для виртуальной машины (Random I/O):

В этом тесте и в последующих мы увидим, что снапшоты не влияют на производительность хранилищ VVols - такова природа этих хранилищ. А вот с VMFS и vSAN мы видим, что производительность падает, для VMFS - в три раза уже с первого снапшота, для vSAN - с третьего.

2. Для последовательного чтения vSAN ведет себя значительно лучше, а вот на VMFS производительность уже с первого снапшота падает в 2.5 раза, и дальше только хуже:

3. Для обработки запросов SPECjbb во всех трех случаях снапшоты не оказывали влияния на производительность:

4. По количеству транзакций в секунду тест HammerDB тоже показывает падение производительности хотя бы с одним снапшотом почти в 3 раза:

Интересно, что для хранилищ vSAN со снапшотами просадки по производительности для теста HammerDB нет.

5. Интересна также производительность гостевых ОС при соазднии и при удалении снапшотов:

Как мы видим, на VMFS критичен первый снапшот, и исходная производительность возвращается виртуальной машине только с удалением последнего снапшота. На vSAN производительность уменьшается и увеличивается постепенно, с изменением количества снапшотов.

Для больших блоков ввода вывода страдает только VMFS при последовательном чтении:

При последовательной записи больших блоков снапшоты влияют только на VMFS (при этом, только первый):

Ну и в заключение VMware приводит такую табличку потерь производительности для виртуальных машин с одним снапшотом:

Итак, очевидные выводы:

Снапшоты - зло. Особенно для VMFS и иногда для vSAN.
Особенное зло снапшотов проявляется для случайного чтения (Random reads), хотя и для последовательного все далеко не так хорошо.
Хранилищам VVol все равно на снапшоты, производительность не падает.
Зло, как правило, именно первый снапшот, дальше уже не так важно, сколько их, но производительность продолжает падать.
При удалении снапшотов производительность ВМ возвращается к исходному уровню.

Таги: VMware, vSphere, Snapshots, Performance, Snapshot, Storage, Whitepaper, ESXi, VMachines

Медленное удаление снапшотов виртуальных машин с томов NFS для VMware ESXi во время резервного копирования

Wolfgang Taitl в своем блоге обратил внимание на серьезную проблему, касающуюся некоторых NFS-хранилищ и процесса создания резервных копий виртуальных машин на VMware ESXi. Это известная проблема.

Суть ее заключается в том, что при удалении снапшота ВМ, по завершении ее резервного копирования, она замирает примерно на 30 секунд, не принимая никакой ввод-вывод. Происходит это на некоторых NFS-хранилищах, в частности HPE SimpliVity. В итоге - приложения, чувствительные ко времени, работают плохо, ну и в целом такое поведение не очень приятно для производственных систем.

Проблема проявилась при использовании платформы VMware vSphere 6.7, текущей версии Veeam Backup and Replication и хранилища HPE SimpliVity, которое поддерживает презентацию томов только в режиме NFS v3.

При этом в такой же комбинации продуктов, но на блочных хранилищах удаление снапшота занимало 1-2 секунды.

После общения с поддержкой нашлись следующие workaround'ы, которые не подошли:

Использовать NFS v4 вместо v3 (доступно не на всех хранилищах)
Использовать другой транспорт (transport mode), например, Direct access или NBD (Network Block Device). Но Direct access доступен не всегда, а NBD - медленный режим.
Можно использовать режим hot-add с виртуальным модулем backup appliance, но тогда он должен быть на каждом хосте (см. KB 201095).
Можно отключить синхронизацию времени с хостом для ВМ с приложениями, которые страдают из-за замирания времени в гостевой ОС. Об этом можно почитать в KB 1189. Но это так себе решение.

На текущий момент получается, что это проблема именно VMware ESXi, см. статью KB 2010953. Также она описана и в базе знаний Veeam - KB 1681 (там же указаны и обходные пути). Таким образом, выходит, что в некоторых случаях ни одно из решений не подходит на 100%.

Таги: Veeam, Backup, NFS, VMware, ESXi, Snapshots, vSphere, Storage, VMachines, Troubleshooting, Bug, Bugs

Анонсы VMworld Europe 2018, часть 3 - технология VMware vSAN Native Data Protection.

Некоторое время назад мы писали о продуктах и технологиях, анонсированных на конференции VMworld Europe 2018 (часть 1 и часть 2), а сегодня поговорим о еще одной технологии, объявленной в рамках мероприятия - VMware vSAN Native Data Protection. О ней в своей статье рассказал Viktor van den Berg.

Данная технология будет представлять собой репликацию данных виртуальных машин на уровне хранилищ на базе снапшотов (а также будет доступна локально в рамках хранилища) в целях создания резервных копий ВМ. Работать этот механизм будет в соответствии с текущей механикой политик Storage Policy Based Management (SPBM).

Использовать технологию vSAN Native Data Protection можно для трех сценариев:

Защита локальных виртуальных машин без использования снапшотов vSphere.
Репликация данных машин на стороннее хранилище NFS.
Репликация данных машин на другую площадку (другой кластер vSAN) под управлением того же (или другого) сервера vCenter.

Технология vSAN Local Data Protection будет использовать механизм native vSAN snapshots, который почти не оказывает влияние на производительность ВМ (поскольку работает на уровне хранилища). Также будут поддерживаться консистентные с точки зрения приложений снапшоты, которые будут использовать скрипты Microsoft VSS / VMware Tools для "подморозки" приложений.

Вот так эта настройка будет выглядеть в мастере конфигурации политики хранилищ для ВМ:

Как мы видим, можно установить частоту создания снапшотов (по сути, требования RPO). Далее идет настройка про то, с какой периодичностью делать application consistent снапшоты. Ну и в конце - число хранимых снапшотов.

Некоторые снапшотоы можно будет хранить в течение долгого периода времени в архивных целях:

Также расписание снапшотирования и откидывания на NFS-хранилище будет представлено в таблице:

Сточки зрения восстановления машин из локальных снапшотов, будет использоваться технология Linked Clone, с помощью которой процесс поднятия ВМ будет занимать около одной минуты. Восстановление полностью независимой ВМ займет существенно больше времени (в зависимости от объема хранилища). При восстановлении ВМ можно выбрать кластер, куда восстанавливать, а также VM Network.

Также в процессе работы vSAN Native Data Protection можно просматривать информацию о ее состоянии в целом:

И для виртуальных машин:

Также будет несколько интересных моментов:

Пока не будет интеграции vSAN Native Data Protection и SRM.
В будущем планируется создание резервных копий с помощью снапшотов для групп ВМ (consistency groups), если они, например, располагаются на разных хранилищах.
Минимально RPO можно указать как 5 минут.
Для обеспечения консистентности бэкапов на уровне приложений можно будет использовать собственные скрипты подготовки и возобновления приложения, а также Microsoft VSS.
Технология будет интегрирована со сторонними решениями для резервного копирования и фреймворком VADP.
Репликация на удаленное хранилище также будет использовать снапшоты в своей основе.
Без application consistent снапшотов (только crash consistent) хранилище будет снапшотиться мгновенно.
Будет поддерживаться репликация как между разными кластерами, так и между разными vCenter.
В качестве архивного хранилища будет поддерживаться пока только NFS, но потом можно будет использовать и облачный сторадж Amazon S3.
Нативные снапшоты будут дедуплицироваться и сжиматься при передаче.

Доступность технологии vSAN Native Data Protection ожидается в первом квартале 2019 года, а пока вы можете запросить доступ к vSAN Beta, где эта технология уже имеется.

Также полистайте вот эту презентацию и посмотрите вот эту запись с сессии VMworld Europe 2018.

Таги: VMware, vSAN, Update, Beta, Snapshots, Backup, Replication

Как работают снапшоты дисков VMDK традиционных томов VMFS и томов VVols.

Недавно мы рассматривали некоторые аспекты резервного копирования на томах VVols в среде VMware vSphere. Одна из важных составляющих этого процесса - снапшоты (snapshots). Мы упоминали, что ввиду архитектуры VVols в плане снапшотов, снимки на уровне дисковых массивов на томах VVols работают быстрее при откате к снапшоту и консолидации (удалении всех снапшотов диска VMDK).

Сегодня мы попробуем разобраться, как это работает, и почему снапшоты в инфраструктуре VVols - это уже не так плохо, как раньше.

Снапшоты на томах VMFS

Сначала посмотрим на традиционную архитектуру снапшотов виртуальных машин на томах VMFS. Когда для машины делается снапшот, создается VMDK-файл, представляющий собой redo log (назовем его лог наката). В этот момент основной диск ВМ переводится в режим только для чтения (read only), а все новые операции записи (writes) идут в новый VMDK (дельта диск), который становится активным диском в плане новых операций чтения-записи для новых блоков, а старые блоки читаются из старого базового VMDK.

Если же мы хотим удалить один из снапшотов, мы должны склеить (накатить - redo) все сделанные операции записи новых блоков из логов наката к предыдущим точкам во времени. Например, если у вас есть базовая точка PIT1 (основной VMDK-диск), а также снапшоты PIT2 и PIT3, то чтобы удалить, например, снапшот PIT2 вам надо повторить (накатить) все операции его redo log на основном VMKD (PIT1), чтобы получить стабильную итоговую цепочку PIT1-PIT3 (без PIT2). Это довольно трудозатратная операция.

Если вы хотите откатиться к одному из снапшотов (revert), например, к исходному состоянию PIT1, то работает это очень просто - следующие снапшоты в цепочке просто отбрасываются (удаляются их VMDK):

Если же вы хотите удалить все снапшоты (консолидировать диск ВМ - операция consolidate), то процедура будет очень накладной. Об этой процедуре мы детально писали вот тут. Сначала PIT2 склеивается с PIT3, а потом уже получившийся диск склеивается с PIT1.

Таким образом, операция консолидации снапшота, который обязательно создается при резервном копировании, может занять длительное время.

Снапшоты для томов VVols

Давайте теперь посмотрим, как снапшоты работают в среде VVols. Здесь базовый диск находится в режиме чтения-записи всегда и всегда хранит в себе самое актуальное состояние. При создании снапшота диска VMDK происходит создание файла VMDK, который хранит в себе отличия (трекаются изменившиеся блоки), происходившие с какого-то момента времени (можно сказать, что это undo log). При этом основной контекст чтения-записи остается на основном VMDK.

В такой схеме операция revert будет происходит довольно долго по сравнению с таковой на VMFS - надо будет откатить изменения PIT3 в базовом диске, а потом изменения PIT2 (если мы идем к состоянию PIT1), но надо помнить, что откатываться к снапшоту приходиться не так уж и часто.

А вот операция консолидации (удаление всех снапшотов) - очень частая при резервном копировании. И вот тут для такой архитектуры работает это все моментально - мы просто откидываем ненужные объекты undo log, оставляя только базовый диск, который содержит в себе самое актуальное состояние на данный момент:

При необходимости вернуться к какому-то из снапшотов в среде VVols надо будет в базовом диске откатить все те изменения блоков (undo), которые зафиксированы в VMDK-диске снапшота, отслеживаемые с нужного момента времени (например, PIT1):

Таги: VMware, vSphere, Snapshots, VVols, VMFS

Резервное копирование томов VVols в среде VMware vSphere - немного дополнений.

Мы много пишем о технологии Virtual Volumes (VVols) - например, тут, тут и тут. Она позволяет более гибко подходить к хранению объектов виртуальных машин за счет передачи некоторых функций работы с их данными на сторону хранилищ.

Несмотря на то, что структура хранения виртуальных машин на базе технологии VVols со стороны устройства хранения выглядит по-другому, нежели на классических томах VMFS, резервное копирование для таких ВМ традиционными средствами вполне поддерживается. Об этом мы уже рассказывали тут и вот тут, а сегодня немного дополним эти посты.

Для ПО резервного копирования тома виртуальные машины на томах VVols выглядят аналогично таковым на томах VMFS, поэтому ни схема, ни средства резервного копирования в инфраструктуре VVols не изменяются:

Резервное копирование делается через механизм vSphere APIs for Data Protection (VADP), который создает снапшот на хранилище, чтобы после его создания ПО для бэкапа могло забрать диски с данными ВМ. Отличие тут в том, что в этой схеме снапшот ВМ делает программное обеспечение дискового массива, на сторону которого передаются операции по работе со снапшотами и другие функции.

Кстати, интересная штука - стандартно для виртуальной машины в VMware vSphere можно сделать до 32 снапшотов, хотя VMware рекомендует делать их не более 2-3 в одной цепочке, так как большее количество может привести к различного рода проблемам. А вот с аппаратными снапшотами на томах VVols можно сделать 32 снапшота, и это никаких проблем не повлечет.

На массивах с поддержкой VVols есть поддержка операций "consolidate" и "revert" для снапшотов. В среде VVols они работают по-другому: там есть базовый VMDK, который всегда остается таковым, и куда идет запись, а также вместо записи изменений в redo log там есть read-only файлы снапшотов, которые не подцепляются в зависимую цепочку. При откате снапшота с базовым VMDK никаких длительных последовательных операций не производится (в отличие от VMFS), соответственно все это делать можно безопасно (подробнее - тут).

Также важно помнить, что использование Change Block Tracking (CBT) и vMotion для виртуальных машин на томах VVols может привести к порче данных (подробнее об этом тут). Эта проблема уже решена, но ее исправления будут доступны в следующих релизах vSphere 6.0, 6.5 и 6.7, а пока отключайте DRS для кластеров с виртуальными машинами на томах VVols.

На момент написания статьи VVols поддерживается для работы в трех режимах резервного копирования:

Резервное копирование за счет монтирования виртуальных дисков (Hot Add backup) - в этом случае к одной ВМ монтируется диск VMDK другой ВМ и происходит его резервное копирование
Резервное копирование по сети передачи данных (NBD backup) - это обычное резервное копирование ВМ по сети Ethernet, когда снимается снапшот ВМ (команды отдаются хостом ESXi), основной диск передается на бэкап таргет, а потом снапшот применяется к основному диску ("склеивается" с ним) и машина продолжает работать как раньше.
Защищенное резервное копирование по Ethernet (NBDSSL) - то же самое, что и NBD backup, только с использованием SSL-шифрования при соединении через TCP/IP.

А вот метод без использования сети Ethernet (SAN-to-SAN backup) по-прежнему не поддерживается. Это происходит потому, что для в традиционной инфраструктуре VMFS есть виртуальный хост backup proxy, который говорит виртуальному модулю резервного копирования, какие блоки нужно читать по сети SAN. В среде VVols через VASA API компонент VASA provider на стороне физического сервера или дискового массива пока не может построить физический SAN-путь от хоста ESXi с томом VVols.

VASA provider нуждается в защите (если он реализован в виде виртуальной машины), так как он содержит в себе структуру томов VVols (и маппинги машин к устройствам), и если этот компонент будет потерян, то вы полностью потеряете управление над хранилищами (запущенные машины при этом еще будут работать).

Надо сказать, что вендоры решений с поддержкой VVols, как правило, сами реализуют отказо- и катастрофоустойчивость своих VP (а также их синхронизацию), но необходимо помнить, что это критически важный компонент, и неплохо бы делать его резервное копирование. Помните, что механизм vSphere HA в данном случае вам не помощник - он предназначен для других задач.

Собственно, практически все решения для резервного копирования виртуальных машин на платформе VMware vSphere на сегодняшний день поддерживают VVols:

Вендор	Продукт	Поддержка VVols, начиная с версии
Veritas	Backup Exec	15 – 20.1
Veritas	NetBackup	7.7 – 8.1
IBM	Tivoli Storage Manager	7.1.2
IBM	Spectrum Protect Plus	10.1.1
CommVault	Commvault	10-SP10 – 11SP11
Veeam	Veeam Availability Suite	8u2 – 9.5
Quest	vRanger	7.3 – 7.6.3
CA Technologies	ARCserve Unified Data Protection	6.5
Unitrends	Enterprise Backup	9.0 – 10.2
Nakivo	Nakivo Backup & Replication	5.7
Micro Focus	VM Explorer Data Protector	9.0

Таги: VMware, VVols, Storage, vSphere, Backup, Snapshots

Как контролировать максимально разрешённое количество VMware VM снапшотов с помощью PowerCLI.

Шесть лет назад, признанный VMware guru William Lam написал отличную статью на эту тему. Сегодня мы автоматизируем его решение с помощью PowerCLI. Прошу любить и жаловать функцию Set-MaxSnapshotNumber из моего PowerCLI Vi-Module модуля. Функция может выполнять следующие 3 действия...

Таги: PowerCLI, vSphere, Snapshots, VMachines, PowerShell, ESXi

Независимые (independent) диски виртуальных машин в VMware vSphere - иногда лучше, чем снапшоты.

Многие администраторы VMware vSphere часто используют снапшоты для отката виртуальных машин в базовую точку после внесения в них экспериментальных изменений. Но вы же знаете, что снапшоты - это плохо, поэтому в некоторых ситуациях можно заменить этот процесс на более эффективный, так как снапшот можно забыть удалить, их удаление грузит дисковую подсистему и т.п.

Итак, иногда независимые (independent) диски могут оказаться вам полезными. Если вы зайдете в настройку дисков виртуальной машины, то увидите там такие опции:

Независимость таких дисков заключается в том, что они работают независимо от снапшотов, то есть при снятии снапшота и откате к ним, независимые диски остаются в том же состоянии. И тут есть 2 подвида таких дисков:

Persistent (постоянный) - этот диск является обычным диском для записи данных, но его не касаются снапшоты.
Nonpersistent (непостоянный) - этот диск является Redo-диском, то есть если вы выключаете виртуальную машину или откатываете ее к снапшоту - изменения, сделанные в этом диске, сбрасываются.

Как раз Nonpersistent-диски - это то, что можно иногда использовать вместо снапшотов. Сделали базовую машину, поэкспериментировали в ней, выключили - и она откатилась к базовому состоянию.

А вот еще кейс, который может научить вас использованию дисков сразу всех трех типов (обычных, независимых-постоянных и независимых-непостоянных). Например, вы сделали веб-сайт, который меняться не будет еще очень долго. Делаете виртуальную машину с тремя дисками:

Обычный - для файлов веб-сервера
Nonpersistent - для контента веб-сайта
Persistent - для логов веб-сайта

Теперь, если этот сайт кто-то поменяет или заразит, какой-то фигней, можно будет просто перезагрузить виртуальную машину - и это откатит ее в начальное состояние контента (непостоянный диск), но сохранит логи для анализа действий злоумышленника (постоянный диск).

В общем, независимые диски как-то не очень используются, но ведь иногда они вполне подойдут для решения некоторых админских задач.

Таги: VMware, vSphere, Storage, Snapshots

Оценка производительности и времени процесса консолидации снапшотов в VMware vSphere.

Мы часто пишем о том, что снапшоты в VMware vSphere - это плохо (за исключением случаев, когда они используются для горячего резервного копирования виртуальных машин и временного сохранения конфигурации ВМ перед обновлением).

Однако их использование в крупных инфраструктурах неизбежно. Рано или поздно возникает необходимость удаления/консолидации снапшотов виртуальной машины (кнопка Delete All в Snapshot Manager), а процесс этот достаточно длительный и требовательный к производительности хранилищ, поэтому неплохо бы заранее знать, сколько он займет.

Напомним, что инициирование удаления снапшотов в vSphere Client через функцию Delete All приводит к их удалению из GUI сразу же, но на хранилище процесс идет долгое время. Но если в процесс удаления возникнет ошибка, то файлы снапшотов могут остаться на хранилище. Тогда нужно воспользоваться функцией консолидации снапшотов (пункт контекстного меню Consolidate):

О процессе консолидации снапшотов мы также писали вот тут. Удаление снапшотов (как по кнопке Delete All, так и через функцию Consolidate) называется консолидацией.

Сначала посмотрим, какие факторы влияют на время процесса консолидации снапшотов виртуальной машины:

Размер дельта-дисков - самый важный параметр, это очевидно. Чем больше данных в дельта-диске, тем дольше их нужно применять к основному (базовому) диску.
Количество снапшотов (число дельта-файлов) и их размеры. Чем больше снапшотов, тем больше метаданных для анализа перед консолидацией. Кроме того, при нескольких снапшотах консолидация происходит в несколько этапов.
Производительность подсистемы хранения, включая FC-фабрику, Storage Processor'ы хранилищ, LUN'ы (число дисков в группе, тип RAID и многое другое).
Тип данных в файлах снапшотов (нули или случайные данные).
Нагрузка на хост-сервер ESXi при снятии снапшота.
Нагрузка виртуальной машины на подсистему хранения в процессе консолидации. Например, почтовый сервер, работающий на полную мощность, может очень долго находится в процессе консолидации снапшотов.

Тут надо отметить, что процесс консолидации - это очень требовательный к подсистеме ввода-вывода процесс, поэтому не рекомендуется делать это в рабочие часы, когда производственные виртуальные машины нагружены.

Итак, как можно оценивать производительность процесса консолидации снапшотов:

Смотрим на производительность ввода-вывода хранилища, где находится ВМ со снапшотами.

Для реализации этого способа нужно, чтобы на хранилище осталась только одна тестовая виртуальная машина со снапшотами. С помощью vMotion/Storage vMotion остальные машины можно с него временно убрать.

1. Сначала смотрим размер файлов снапшотов через Datastore Browser или с помощью следующей команды:

ls -lh /vmfs/volumes/DATASTORE_NAME/VM_NAME | grep -E "delta|sparse"

2. Суммируем размер файлов снапшотов и записываем. Далее находим LUN, где размещена наша виртуальная машина, которую мы будем тестировать (подробнее об этом тут).

3. Запускаем команду мониторинга производительности:

# esxtop

4. Нажимаем клавишу <u> для переключения в представление производительности дисковых устройств. Для просмотра полного имени устройства нажмите Shift + L и введите 36.

5. Найдите устройство, на котором размещен датастор с виртуальной машиной и отслеживайте параметры в колонках MBREAD/s и MBWRTN/s в процессе консолидации снапшотов. Для того, чтобы нужное устройство было вверху экрана, можно отсортировать вывод по параметру MBREAD/s (нажмите клавишу R) or MBWRTN/s (нажмите T).

Таким образом, зная ваши параметры производительности чтения/записи, а также размер снапшотов и время консолидации тестового примера - вы сможете оценить время консолидации снапшотов для других виртуальных машин (правда, только примерно того же профиля нагрузки на дисковую подсистему).

Смотрим на производительность конкретного процесса консолидации снапшотов.

Это более тонкий процесс, который можно использовать для оценки времени снапшота путем мониторинга самого процесса vmx, реализующего операции со снапшотом в памяти сервера.

1. Запускаем команду мониторинга производительности:

# esxtop

2. Нажимаем Shift + V, чтобы увидеть только запущенные виртуальные машины.

3. Находим ВМ, на которой идет консолидация.

4. Нажимаем клавишу <e> для раскрытия списка.

5. Вводим Group World ID (это значение в колонке GID).

6. Запоминаем World ID (для ESXi 5.x процесс называется vmx-SnapshotVMX, для ранних версий SnapshotVMXCombiner).

7. Нажимаем <u> для отображения статистики дискового устройства.

8. Нажимаем <e>, чтобы раскрыть список и ввести устройство, на которое пишет процесс консолидации VMX. Что-то вроде naa.xxx.

9. Смотрим за процессом по World ID из пункта 6. Можно сортировать вывод по параметрам MBREAD/s (клавиша R) или MBWRTN/s (клавиша T).

10. Отслеживаем среднее значение в колонке MBWRTN/s.

Это более точный метод оценки и его можно использовать даже при незначительной нагрузке на хранилище от других виртуальных машин.

Таги: VMware, Snapshots, Performance, vSphere, ESXi, VMachines, Storage

И снова критический баг VMware vSphere 6 - ваши бэкапы могут оказаться невосстановимыми.

Как-то раз мы писали про баг в VMware vSphere 5.5 (и более ранних версиях), заключавшийся в том, что при увеличении виртуальных дисков машин с включенной технологией Changed Block Tracking (CBT) их резервные копии оказывались невалидными и не подлежащими восстановлению. Эта ошибка была через некоторое время пофикшена.

Однако похожая (но только еще более тяжелая) судьба постигла и свежую версию платформы виртуализации VMware vSphere 6 - технология CBT также портит резервные копии виртуальных машин любого решения для резервного копирования, использующего отслеживание изменившихся блоков, например, Veeam Backup and Replication. Более подробно проблема изложена в KB 2136854.

Суть критического бага в том, что операции ввода-вывода, сделанные во время консолидации снапшота ВМ в процессе снятия резервной копии, могут быть потеряны. Для первого бэкапа в этом нет ничего страшного, а вот вызываемая во второй раз функция QueryDiskChangedAreas технологии CBT не учитывает потерянные операции ввода-вывода, а соответственно при восстановлении из резервной копии такой бэкап будет неконсистентным. То есть баг намного более серьезный, чем был в версии vSphere 5.5 (там надо были задеты только ВМ, диски которых увеличивали, а тут любая ВМ подвержена багу).

На данный момент решения этой проблемы нет, надо ждать исправления ошибки. Пока VMware предлагает на выбор 3 варианта:

Сделать даунгрейд хостов ESXi на версию 5.5, а версию virtual hardware 11 понизить на 10.
Делать полные бэкапы виртуальных машин (full backups) вместо инкрементальных.
Выключать виртуальные машины во время инкрементального бэкапа, чтобы у них не было никаких IO, которые могут потеряться.

Как вы понимаете, ни один из этих вариантов неприемлем в условиях нормальной работы производственной среды. Мы оповестим вас об исправлении ошибки, ну а пока поздравляем службу контроля качества компании VMware с очередной лажей!

P.S. Пока делайте полные бэкапы критичных систем. И следите за новостями от Veeam.

Таги: VMware, Backup, Bug, Snapshots, CBT, Storage, Bugs, Veeam

Резервное копировние виртуальных машин на томах Virtual Volumes (VVols) в VMware vSphere.

Мы уже немало писали про технологию использования хранилищ VVols (например, здесь и здесь), которая позволяет существенно увеличить производительность операций по работе с хранилищами в среде VMware vSphere за счет использования отдельных логических томов под компоненты виртуальных машин и передачи части операций по работе с ними на сторону дисковых массивов.

Давайте посмотрим, как же технология VVols влияет на процесс резервного копирования виртуальных машин, например, с помощью основного продукта для бэкапа ВМ Veeam Backup and Replication, который полностью поддерживает VVols. Для начала рассмотрим основные способы резервного копирования, которые есть в виртуальной среде:

Резервное копирование за счет монтирования виртуальных дисков (Hot Add backup) - в этом случае к одной ВМ монтируется диск VMDK другой ВМ и происходит его резервное копирование
Резервное копирование по сети передачи данных (NBD backup) - это обычное резервное копирование ВМ по сети Ethernet, когда снимается снапшот ВМ (команды отдаются хостом ESXi), основной диск передается на бэкап таргет, а потом снапшот применяется к основному диску ("склеивается" с ним) и машина продолжает работать как раньше.
Резервное копирование по сети SAN (SAN-to-SAN backup) - в этом случае на выделенном сервере (Backup Server) через специальный механизм Virtual Disk API происходит снятие снапшота ВМ без задействования хоста ESXi и бэкап машины на целевое хранилище напрямую в сети SAN без задействования среды Ethernet.

Последний способ - самый быстрый и эффективный, но он требует наличия специальных интерфейсов (vSphere APIs и Virtual Disk Development Kit, VDDK), которые должны присутствовать на выделенном сервере.

К сожалению, для VVols способ резервного копирования по сети SAN еще не поддерживается, так как данный механизм для прямой работы с хранилищами SAN для VVols еще не разработан. Поэтому при работе с VVols придется использовать NBD backup. Однако не расстраивайтесь - большинство компаний именно его и используют для резервного копирования машин на томах VMFS в силу различных причин.

Работа хоста VMware ESXi с томами виртуальной машины VVols выглядит следующим образом:

Для процессинга операций используется Protocol Endpoint (PE), который представляет собой специальный административный LUN на хранилище. PE работает с лунами машин (VVols), которые представлены через secondary LUN ID, а VASA Provider со стороны дискового массива снабжает vCenter информацией о саблунах виртуальных машин, чтобы хост ESXi мог с ними работать через PE.

Таким образом, в новой архитектуре VVols пока не прикрутили технологический процесс соединения стороннего сервера с VVols виртуальных машин и снятия с них резервных копий.

Вернемся к процессу резервного копирования. Как известно, он опирается на механизм работы снапшотов (Snapshots) - перед снятием резервной копии у ВМ делается снапшот, который позволяет перевести базовый диск в Read Only, а изменения писать в дельта-диск снапшота. Далее базовый диск ВМ копируется бэкап-сервером, ну а после того, как базовый диск скопирован, снапшот склеивается с основным диском, возвращая диски машины обратно в консолидированное состояние.

Так это работает для файловой системы VMFS, которая развертывается поверх LUN дискового массива. Сами понимаете, что при интенсивной нагрузке во время резервного копирования (особенно больших виртуальных дисков) с момента снятия снапшота может пройти довольно много времени. Поэтому в дельта-дисках может накопиться много данных, и процесс консолидации снапшота на практике иногда занимает часы!

Для виртуальных томов VVols все работает несколько иначе. Давайте взглянем на видео:

В среде VVols при снятии снапшота базовый диск остается режиме Read/Write (это все делает массив), то есть контекст записи данных никуда не переключается, и изменения пишутся в базовый диск. В снапшоты (это отдельные тома VVol) пишется только информация об изменениях базового диска (какие дисковые блоки были изменены с момента снятия снапшота).

Ну а при удалении снапшота по окончанию резервного копирования никакой консолидации с базовым диском производить не требуется - так как мы продолжаем с ним работать, просто отбрасывая дельта-диски.

Такой рабочий процесс несколько увеличивает время создания снапшота в среде VVols:

Но это всего лишь десятки секунд разницы. А вот время консолидации снапшота по окончанию резервного копирования уменьшается во много раз:

Как следствие, мы имеем уменьшение совокупного времени резервного копирования до 30%:

Так что, если говорить с точки зрения резервного копирования виртуальных машин, переход на VVols обязательно даст вам прирост производительности операций резервного копирования и позволит уменьшить ваше окно РК.

Таги: VMware, VVols, Storage, VMFS, Backup, VMachines, Performance, Snapshots

Когда происходит "подмораживание" (stun) виртуальной машины в VMware vSphere 6.

Если вы администратор платформы виртуализации VMware vSphere, то, наверное, часто замечали, что в некоторых случаях при операциях с виртуальными машинами и ее дисками происходит "подмораживание" ВМ (или "stun", он же "quiescence"). В этот момент виртуальная машина ничего не может делать - она недоступна для взаимодействия (в консоли и по сети), а также перестает на небольшое время производить операции ввода-вывода. То есть, ее исполнение ставится на паузу на уровне инструкций, а на уровне ввода-вывода совершаются только операции, касающиеся выполняемой задачи (например, закрытие прежнего VMDK-диска и переключение операций чтения-записи на новый диск при операциях со снапшотами).

Cormac Hogan написал на эту тему интересный пост. Stun виртуальной машины нужен, как правило, для того, чтобы сделать ее на время изолированной от окружающего мира для выполнения значимых дисковых операций, например, консолидация снапшотов. Это может занимать несколько секунд (и даже десятков), но часто это происходит на время около секунды и даже меньше.

Когда может возникать stun виртуальной машины? Есть несколько таких ситуаций.

1. Во время операции "suspend" (постановка ВМ на паузу). Тут происходит такое подмораживание, чтобы скинуть память ВМ на диск, после чего перевести ее в приостановленное состояние.

2. В момент создания снапшота. Об этом написано выше - нужно закрыть старый диск и начать писать в новый. На время этой операции логично, что приостанавливается ввод-вывод.

3. Консолидация снапшотов (удаление всех). Здесь тоже нужно "склеить" все VMDK-диски (предварительно закрыв) и начать работать с основным диском ВМ. А вот удаление снапшота в цепочке stun не вызывает, так как не затрагивает VMDK, в который сейчас непосредственно идет запись.

4. Горячая миграция vMotion. Сначала память передается от одной машины к целевой ВМ без подмораживания, но затем происходит такой же stun, как и при операции suspend, с тем только отличием, что маленький остаток памяти (минимальная дельта) передается не на диск, а по сети. После этого происходит операция resume уже на целевом хосте. Пользователь этого переключения, как правило, не замечает, так как время этого переключения очень жестко контролируется и чаще всего не достигает 1 секунды. Если память гостевой ОС будет меняться очень быстро, то vMotion может затянуться именно во время этого переключения (нужно передать последнюю дельту).

5. Горячая миграция хранилищ Storage vMotion. Здесь stun случается аж дважды: сначала vSphere должна поставить Mirror Driver, который будет реплицировать в синхронном режиме операции ввода-вывода на целевое хранилище. При постановке этого драйвера происходит кратковременный stun (нужно также закрыть диски). Но и при переключении работы ВМ на второе хранилище происходит stun, так как нужно удалить mirror driver, а значит снова переоткрыть диски уже на целевом хранилище.

В современных версиях vSphere работа со снапшотами была оптимизирована, поэтому подмораживания виртуальной машины во время этих операций вы почти не заметите.

Таги: VMware, VMDK, Snapshots, Performance, VMachines, vSphere, ESXi

Зачем нужен VMware Log Insight? Пример использования - поиск пользователей, которые делали снапшоты.

В нескольких заметках мы освещали новости о продукте VMware Log Insight, который предназначен для автоматизированного управления файлами журналов, а также сбора различных данных, их анализа и поиска.

Многие администраторы VMware vSphere знают, что такой продукт есть, на мало кто знает, зачем он реально нужен. Ну да, централизованно собирает логи, есть аналитика, но когда он может пригодиться? Поэтому приведем тут пример решения конкретной административной задачи с помощью VMware Log Insight, которую описал у себя в блоге Iwan Rahabok.

Итак, каждый из вас, я надеюсь, знает, что снапшоты виртуальных машин - это плохо (назовем их "snapshits"). Поэтому в большой инфраструктуре часто оказывается необходимым найти тех, кто снапшоты создает, а если он потом их удалил, то когда это было сделано.

Для начала создадим и удалим снапшот виртуальной машины. Это отобразится в списке последних задач vSphere Web Client:

Откроем консоль VMware Log Insight и перейдем в представление "Virtual Machine – Snapshots", как показано ниже:

Видим, что оба события были пойманы. Переключимся в представление Interactive Analytics (в верхнем меню):

Тут мы видим оба события на таймлайне. Расширим диапазон до 7 дней и добавим фильтр по строчкам "vmw_esxi_snapshot_operation". Видим записи лога о снапшотах:

Ну и переключимся на вкладку Field Table, где выберем параметр vc_username в качестве фильтра (если пользователь заходил из vCenter):

Ну и видим тут, что всеми этими делами занимался пользователь obi-wan.

На самом деле, с помощью Log Insight можно вытягивать очень много чего полезного, например, можно было бы составить фильтр так, чтобы показать виртуальные машины только по указанному шаблону именования.

Таги: VMware, Log Insight, Snapshots, vSphere, vCenter, Blogs

Как бороться со снапшотами в VMware vSphere - утилита Snapwatcher Enterprise Edition.

Мы уже упоминали компанию opvizor на нашем сайте - она тогда называлась еще Icomasoft. Она время от времени делает утилитки для виртуальной инфраструктуры. Оказалось у нее есть могущая оказаться полезной многим утилита Snapwatcher Enterprise Edition.

Как знают администраторы VMware vSphere, снапшоты виртуальных машин в большой виртуальной инфраструктуре - это просто беда. Они плодятся неаккуратными пользователями и администраторами, создаются пачками в тестовых системах и почему-то иногда не удаляются средствами резервного копирования. Для решения таких проблем и предлагается использовать Snapwatcher:

Что умеет Snapwatcher:

Отслеживание имеющихся снапшотов ВМ на различных vCenter.
Отчет о количестве паразитно занятого снапшотами дискового пространства.
Нахождение некорректных снапшотов (например, после средств бэкапа).
Удаление ненужных снапшотов централизованно, из одной консоли.
Починка невалидных снапшотов (очевидно, работает не всегда - но весьма интересная функция).
Отслеживание истории снапшотов.

Как это работает:

Сам продукт Snapwatcher платный ($200 за лицензию на пользователя), но у него есть триальная версия. А так как в большинстве случаев проблема со снапшотами в виртуальной среде - разовая, то можно скачать Snapwatcher бесплатно и все пофиксить.

Таги: opvizor, Snapshots, vSphere, VMware, VMachines, ESXi, Troubleshooting

Незабываемый опыт от Veeam: проведите Международный день бэкапа с пользой!

Проведите Международный день бэкапа с пользой! Только маркер, доска и опыт инженеров Veeam!

Компания Veeam в рамках бесплатного вебинара "Snapshot: снимок на память" предлагает вместе обсудить общие проблемы правильного резервного копирования виртуальных машин и расскажет, как их решать.

Снимок — это хорошо… или это плохо?

Работа снапшотов VMware и их влияние на вашу виртуальную инфраструктуру.

С программным снапшотом хорошо, а с аппаратным – еще лучше!

Интеграция с моментальными снимками СХД NetApp и HP. Что ждет всех с vVol в vSphere 6.0?

Всё тайное со Snapshot Hunter становится явным.

Расскажем, как «охотник за снапшотами» позволяет отслеживать и удалять снапшоты-невидимки.

Время и дата мероприятия: З1 марта в 11. 00 по московскому времени.

Ссылка на регистрацию: http://go.veeam.com/whiteboard-snapshots-ru

Таги: Veeam, Backup, VMware, Snapshots

Еще одна причина не создавать снапшоты на VMware vSphere - число одновременно запущенных виртуальных машин.

Некоторое время назад мы писали заметку о том, "Почему снапшоты виртуальных машин в VMware vSphere - это плохо", да и вообще часто затрагиваем эту тему.

Ниже мы приведем еще один аргумент в пользу того, чтобы не создавать снапшоты виртуальных машин на постоянной основе (во временном их использовании нет ничего плохого).

Итак, в одной из статей мы писали про расширенную настройку VMFS Heap Size (размер кучи), которая косвенно определяет максимально доступный объем хранилищ на хосте.

Также мы писали о том, что параметр VMFS3.MaxHeapSizeMB еще в VMware vSphere 5.1 был увеличен до 640 МБ.

Однако есть и куча для механизма "Copy-on-Write" (COW), которая определяется расширенной настройкой COW.COWMaxHeapSizeMB - она ограничивает число одновременно запущенных на хосте виртуальных машин. Механизм COW работает на хосте, когда у машины есть снапшоты (дельта-диски).

По умолчанию это значение равно 192 МБ, но может быть увеличено до 256 МБ:

Также этот параметр можно узнать из командной строки:

~ # esxcfg-advcfg -g /COW/COWMaxHeapSizeMB Value of COWMaxHeapSizeMB is 192

И установить его в максимальное значение:

~ # esxcfg-advcfg -s 256 /COW/COWMaxHeapSizeMB Value of COWMaxHeapSizeMB is 256MB

Давайте посмотрим, как расходуется пространство этой кучи на хосте, в зависимости от параметров виртуальных машин на нем. Вот тут есть такая интересная формула:

X = (75 / 100 * COW_HEAP_SIZE) / ((B / (2 * 1048576) * 4 * S) * Y)

где:

X - это максимальное число запущенных виртуальных машин на хосте,
COW_HEAP_SIZE - размер кучи в байтах,
B - размер виртуального диска в байтах,
2 * 1048576 - это GDE Coverage (хз, что такое),
4 - это число байт на Root Entry,
S - число снапшотов каждого из виртуальных дисков,
Y - число дисков у машин.

Возьмем для примера машину с 5 дисками размером в 80 ГБ по 6 снапшотов у каждого при максимальном размере кучи в 256 МБ. Получим, что таких машин может быть запущено на хосте:

= (75 / 100 * 268435456) / ((85899345920 / (2 * 1048576) * 4 * 6) * 5)

Это примерно около 40 машин (всего лишь) - при максимально доступном размере кучи на VMware ESXi. Понятно дело, что мало где можно найти машины с 5 дисками, у каждого из которых по 6 снапшотов, но я видел подобные конфигурации пару раз.

Нетрудно понять, как в этой формуле влияют снапшоты на максимальное число запущенных виртуальных машин. Поэтому повторим еще раз: постоянные снапшоты - зло.

Таги: VMware, ESXi, Snapshots, vSphere, Memory

Снапшоты виртуальных машин с Microsoft Exchange и SQL: поддержка.

У нас уже есть серия статей про снапшоты виртуальных машин, добавим к ней еще одну. Мы не освещали тот факт, что для бизнес-критичных приложений (Tier 1) поддержка снапшотов может не предоставляться со стороны производителя программного обеспечения. Это еще один факт из серии "почему снапшоты это плохо".

Давайте обратимся к статье блоггера Matt Liebowitz, который привел цитаты из официальных источников Microsoft про предоставление поддержки для приложений Exchange и SQL, работающих в виртуальных машинах.

Microsoft Exchange 2010 System Requirements:

Some hypervisors include features for taking snapshots of virtual machines. Virtual machine snapshots capture the state of a virtual machine while it's running. This feature enables you to take multiple snapshots of a virtual machine and then revert the virtual machine to any of the previous states by applying a snapshot to the virtual machine. However, virtual machine snapshots aren't application aware, and using them can have unintended and unexpected consequences for a server application that maintains state data, such as Exchange. As a result, making virtual machine snapshots of an Exchange guest virtual machine isn't supported.

Support policy for SQL Server running in a hardware virtualization environment (covers all versions):

Virtualization Snapshots for Hyper-V or for any virtualization vendor are not supported to use with SQL Server in a virtual machine. It is possible that you may not encounter any problems when using snapshots and SQL Server, but Microsoft will not provide technical support to SQL Server customers for a virtual machine that was restored from a snapshot.

Конечно же, интереснее всего не сами снапшоты виртуальных машин в VMware vSphere или Hyper-V, которые редко используются в производственных средах, а то, что для резервного копирования эти снапшоты используются любым продуктом для резервного копирования, который архивирует работающую виртуальную машину целиком (например, Veeam Backup and Replication). Иначе просто нельзя забрать файл виртуального диска, в который идет запись.

Таким образом, мы получаем, что для Microsoft Exchange и SQL поддержку пользователи могут не получить, особенно это касается случаев восстановления резервных копий, которые могут некорректно работать. Учитывая, что приложения эти, зачастую, являются одними из самых критичных для предприятия - вопрос поддержки оказывается весьма актуальным.

Также, важно отметить, что поддержка приложением резервного копирования функций VSS writer (в том же Veeam) не гарантирует вам поддержки со стороны Microsoft, что также логично, поскольку последняя не может отвечать за сторонних разработчиков.

Ну и Мэт отмечает, что для тех пользователей, у кого есть Microsoft Premier support agreement, техподдержка Microsoft попробует сделать усилия, чтобы решить проблему со снапшотами если она вдруг возникнет.

И последний, но немаловажный момент: в Veeam Backup and Replication, начиная с 5-й версии, есть функция SureBackup, позволяющая проверить резервные копии на работоспособность и готовность к восстановлению, без реального восстановления в продуктивную среду. Вот для таких случаев как тестирование Tier 1 приложений может и пригодиться эта штука.

Таги: Microsoft, VMware, Snapshot, VMachines, Backup, Veeam, SureBackup, Hyper-V

Файлы снапшотов (snapshots) виртуальных машин VMware vSphere 5 и поддерживаемые операции.

О снапшотах виртуальных машин VMware vSphere мы уже много писали (например, можно пискать по тэгу "Snapshot"). Постараемся в этой заметке просуммировать информацию о том, что из себя представляют файлы снапшотов виртуальных машин vSphere 5 и как они обрабатываются.

Для того, чтобы снять снапшот виртуальной машины (virtual machine snapshot), можно кликнуть на ней правой кнопкой в vSphere Client и выбрать соответствующий пункт "Take Snapshot" из контекстного меню:

Далее появится окно снятия снапшота ВМ:

Обратите внимание на опцию "Snapshot the virtual machine's memory". Если эту галку убрать, то снапшот не будет содержать состояние памяти виртуальной машины, т.е. при откате к нему ВМ будет в выключенном состоянии. Плюс такого снапшота - он создается намного быстрее, поскольку не надо сохранять память машины в отдельный файл.

Вторая опция - это возможность "заморозки" файловой системы виртуальной машины на время создания снапшота. Она доступна только при условии установленных в гостевой ОС VMware Tools, в составе которых идет Sync Driver. Эта функциональность нужна для создания консистентного состояния виртуальной машины для снапшота на уровне файловой системы, что особенно необходимо при создании резервных копий (используют все системы резервного копирования для виртуализации, например, Veeam Backup and Replication). Данная возможность (quiesce) поддерживается не всегда - об условиях ее применения можно прочитать тут.

После создания снапшота заглянем в Datastore Browser на хосте VMware ESXi через vSphere Client:

Выделенные зеленым объекты - это абстрации двух снапшотов виртуальных машин. Чтобы понять, что собой представляют эти абстрации, откроем каталог с виртуальной машины в консоли (Putty по SSH):

Здесь мы уже видим, что снапшот на самом деле - это набор из четырех файлов:

<имя ВМ>-[шесть цифр]-delta.vmdk - файл данных диска отличий от базового диска
<имя ВМ>-[шесть цифр].vmdk - заголовочный файл
<имя ВМ>.vmsd - текстовый файл с параметрами снапшота (связи в дереве, SCSI-нода, время создания и т.п.)
<имя ВМ>.vmsn - файл с сохраненной памятью виртуальной машины

Самый главный файл - это, конечно, <имя ВМ>-[шесть цифр]-delta.vmdk. Он содержит блоки данных хранимые в формате так называемых redo-логов (он же дочерний диск - child disk). Он же sparse-диск, то есть диск, который использует технологию Copy-On-Write (COW) при работе с данными. Идея технологии copy-on-write — при копировании областей данных создавать реальную копию только когда ОС обращается к этим данным с целью записи. Таким образом, этот виртуальный диск содержит только измененные от родительского диска области данных (delta).

По умолчанию размер COW-операции составляет 64 КБ, что эквивалентно 128 секторам (подробнее). Но сам снапшот растет блоками данных по 16 МБ. То есть запись 64 КБ данных исходного диска может породить прирост 16 МБ данных в диске снапшота.

Следующий интересный тип файла - <имя ВМ>.vmsd. Это обычный текстовый файл, который можно открыть в редакторе и увидеть все отношения между родительским и дочерними дисками, а также другую интересную информацию:

Ну и последнее - это память виртуальной машины, хранящаяся в файле <имя ВМ>.vmsn. Его, понятное дело, может не быть, если вы создавали снапшот выключенной ВМ или убрали галку, о которой написано в самом начале.

По умолчанию снапшоты складываются в папку на VMFS-томе, где лежит виртуальная машина. Но это размещение можно сменить, поменяв рабочую папку (Working Directory) в настройках виртуальной машины через vSphere Client или в vmx-файле, для чего нужно добавить или поменять строчку:

workingDir="/vmfs/volumes/SnapVolume/Snapshots/"

Кстати, эта же папка задает и размещение файла подкачки ВМ (*.vswp). Если вы его хотите оставить на прежнем месте, нужно добавить строчку:

sched.swap.dir = "/vmfs/volumes/VM-Volume1/MyVM/"

Ну и напоследок, какие операции поддерживаются для виртуальных машин со снапшотами:

Операция	Требования и комментарии
Storage vMotion	Для хостов ESX/ESXi 4.1 или более ранних - не поддерживатся. Для ESXi 5.0 или более поздних - поддерживается.
vMotion	Поддерживается. Файлы снапшотов должны быть доступны на целевом хосте. Необходима версия hardware version 4 или более поздняя (ESX/ESXi 3.5 и выше).
Cold migration	Поддерживается для хостов ESX/ESXi 3.5 или более поздних.
Fault Tolerance	Не поддерживается. Для создания снапшота нужно отключить FT.
Hot clone	Поддерживается, но снапшотов не должно быть больше 31 штуки.
Cold clone	Поддерживается. Однако целевая ВМ будет без снапшотов.

Более подробную информацию о снапшотах можно найти в KB 1015180.

Ну и небольшая подборка ссылок по траблшутингу снапшотов в VMware vSphere:

И отдельно выделим вот эту потрясающую библию снапшотов: Troubleshooting Virtual Machine snapshot problems.

Таги: VMware, vSphere, Snapshot, Обучение, ESX, ESXi, VMachines, Troubleshooting

Снапшоты в VMware vSphere 5 - стало лучше.

Помните, мы писали, что снапшоты виртуальных машин в VMware vSphere - это плохо? Но иногда без них не обойтись - например, системы резервного копирования (например, Veeam Backup and Replication) вынуждены делать снапшоты, чтобы не прерывать работу виртуальной машины во время бэкапа.

Цель этой заметки - показать, что в VMware vSphere при работе со снапшотами все сделали несколько лучше, чем в предыдущей версии. Во-первых, смотрим это видео:

Мысль видео такова: если у вас некорректно завершилась операция по консолидации снапшотов, то в VMware vSphere 5 вам предлагается опция по консолидации, доступная из контекстного меню виртуальной машины:

То есть, теперь не надо терзать командную строку в случае появления проблем со снапшотами виртуальных машин.

Во-вторых, появилась опция по поиску виртуальных машин, нуждающихся в консолидации снапшотов, доступная из vSphere Client. Чтобы найти такие машины, нужно выбрать хост или кластер, перейти на вкладку "Virtual Machines" и по правой кнопке выбрать пункт "Needs Consolidation":

Ну и, в-третьих, в vSphere 5 полностью поддерживается "горячее" перемещение виртуальных машин между хранилищами средствами Storage vMotion, а также, само собой, между хостами средствами обычного vMotion.

Картинки честно украдены у Vladan'а Seget'а.

Таги: VMware, vSphere, Snapshots, Update, Storage, ESXi, VMachines

Диски StarWind Enterprise - Snapshot and CDP Device.

О решении StarWind Enterprise iSCSI для создания отказоустойчивых хранилищ VMware vSphere и Microsoft Hyper-V мы уже писали немало (для этого есть специальный раздел на нашем сайте) и будем писать еще, пока все кому оно нужно его не купят. А нужно оно очень многим, так как позволяет создать отказоустойчивый кластер хранения на базе существующей инфраструктуры Ethernet при минимальных инвестициях (не надо покупать FC-хранилища, устройства коммутации SAN и прочее).

Сегодня мы поговорим о типе диска Snapshot and CDP Device в StarWind Enterprise iSCSI. Во-первых, вам нужно прочитать первую часть статьи, где описаны основные режимы работы дисков со снапшотами, которые поддерживает продукт.

Диски типа Snapshot and CDP Device можно создать, когда вы выбираете опцию создания виртуального образа Advanced Virtual, а затем Snapshot and CDP Device:

CDP - это Continuous Data Protection, т.е. непрерывная защита данных ваших виртуальных машин. В этом режиме поддерживаются мгновенные снимки хранилища (snapshots), которые защитят вас от утраты каких-либо важных данных по вине пользователя - вы всегда сможете откатиться к снимку, созданному в определенный момент времени.

Какие опции мы имеем (кстати, обратите внимание, что StarWind можно использовать и для Citrix XenServer, где он находится в официальном HCL):

Во-первых, у нас есть три режима работы диска Snapshot and CDP Device...(нажимаем читать дальше и комментировать)

Таги: StarWind, Snapshot, Storage, Enterprise, iSCSI, VMware, ESX, vSphere, VMFS

Почему снапшоты виртуальных машин в VMware vSphere - это плохо.

Часто разговаривая с заказчиками и пользователями платформ виртуализации от VMware, я вижу, что у многих из них весьма широко применяются снапшоты (snapshots), в том числе для целей "резервного копирования". Эти снапшоты живут долго, их файлы разрастаются и поростают плесенью. Потом инфраструктура начинает тормозить, а пользователи не знают почему. И как это не казалось бы странным - удаление всех снапшотов у всех виртуальных машин решает их проблемы, с которыми они уже свыклись.

Сегодня я вам расскажу, чтоб вы наконец запомнили: снапшоты это в целом плохо и лишь иногда хорошо. На эту страницу мы с вами будем отсылать наших клиентов и пользователей виртуальных машин, которыми могут оказаться люди, не участвующие в процессе администрирования VMware vSphere, но пользующиеся функционалом снапшотов (например, веб-разработчики).

Начнем с того, когда снапшоты могут помочь (я имею в виду, конечно, руками делаемые снапшоты, а не автоматические, которые делает, например, Veeam Backup). Снапшоты в VMware vSphere оказываются полезны в очень ограниченных условиях (например, для проверки корректности работы обновления приложения или патча операционной системы). То есть эта та точка сохранения состояния виртуальной машины, к которой можно будет вернуться через небольшой промежуток времени. Ни в коем случае нельзя рассматривать снапшоты как альтернативу резервному копированию основных производственных систем, в силу множества проблем, о которых пойдет речь ниже.

Что плохого в снапшотах виртуальных машин на VMware ESX:

1. Снапшоты неконтролируемо растут (блоками по 16 МБ). Помимо базового диска ВМ фиксированной емкости вы имеете еще один файл отличий виртуального диска, который растет как ему вздумается (предел роста одного снапшота - размер базового диска). Особенно быстро растут снапшоты для ВМ с приложениями с большим количеством транзакций (например, почтовый сервер или сервер СУБД). Со снапшотами вы не имеете контроля над заполненностью хранилищ.

2. Большое количество снапшотов (особенно цепочки, в которых может быть до 32 штук) вызывает тормоза виртуальной машины и хост-сервера ESX (в основном замедляется работа с хранилищем). Проверено на практике. Даже VMware пишет так: "An excessive number of snapshots in a chain or snapshots large in size may cause decreased virtual machine and host performance". В качестве примера можно привести тот факт, что при аллокации блоков снапшота происходит блокировка LUN (в этом режиме он доступен только одному хосту, остальные ждут). Когда снапшот делается - машина подвисает из-за сброса памяти на диск.

3. Снапшоты не поддерживают многие технологии VMware, созданные для автоматизации датацентров. К ним относятся VMware Fault Tolerance, Storage VMotion и другие. Когда одни машинки в чем-то участвуют, а другие не участвуют - это нехорошо в рамках концепции динамической инфраструктуры.

4. Снапшоты вызывают специфические проблемы при операциях с ВМ. Например, расширение диска виртуальной машины со снапшотом приводит к потере данных и непонятками, что дальше с такой машиной делать. Сто раз уже пользователи влипали (вот как вытянуть себя за волосы). Интересно также восстановить из снапшота машину с IP-адресом, который на данный момент уже используется в сети.

5. Со снапшотами бывают баги, а бывает, что они просто "by design" тупят.

6. У снапшотов было плохое поведение при их слиянии, но сейчас исправилось.

Рекомендации по работе со снапшотами:

1. Контролируйте наличие снапшотов у виртуальных машин и их размеры, своевременно удаляйте их совместно с владельцами систем. Делать это можно, например, с помощью RVTools.

2. Не храните снапшоты больше 24-72 часов. Этого времени достаточно, чтобы оттестировать обновление ПО или патч ОС (ну и, конечно, сделать бэкап).

3. На сервере VMware vCenter можно настроить алармы на снапшоты виртуальных машин. Сделайте это. Дрючьте пользователей за необоснованные снапшоты.

4. Не позволяйте делать больше 2-3 снапшотов для виртуальной машины в принципе, если это делается в производственной среде. На своих выделенных для тестирования ресурсах (изолированных) пусть разработчики делают что хотят.

5. Если вы используете ПО для резервного копирования через снапшоты ВМ (например, Veeam Backup), помните, что бывает некоторые невидимые в vSphere Client снапшоты (Helpers) остаются на хранилище. Поглядывайте за машинами из командной строки.

6. Почитайте: KB 1009402, KB 1025279, KB 1015180.

Таги: VMware, VMachines, Snapshots, ESX, vSphere, Storage, Обучение, Performance, Bugs

Использование снапшотов для хранилищ StarWind Enterprise HA под VMware ESX или Microsoft Hyper-V.

В прошлой заметке мы писали о том, какие типы дисков бывают в продукте StarWind Enterprise, позволющем создать отказоустойчивую инфраструктуру хранения данных виртуальных машин серверов VMware ESX или Microsoft Hyper-V.

Сегодня мы посмотрим на мастер создания виртуального диска с поддержкой мгновенных снимков (снапшотов), который будет предоставлять доступ хост-серверам виртуализации по iSCSI. Снапшоты могут оказаться полезными при разработке и тестировании (временные снапшоты хранилищ виртуальных машин), а также для защиты данных от утери или сбоев в виртуальной инфраструктуре.

Для данного типа диска важен параметр Operation Mode, который задает режим его работы. Этот диск в StarWind Enterprise может работать в одном из четырех режимов:

Growing Image (Thin Provisioning) - образ диска на физическом устройстве будет создан минимального объема (тонкий диск). Для серверов ESX он будет виден как полноценное хранилище указанного объема, а сам файл образа будет расти по мере его наполнения данными. Снапшот хранилища можно сделать только вручную. Для этого из контекстного меню для устройства на iSCSI Target надо выбрать пункт Create Snapshot. Этот режим работы диска подходит для создания снимков хранилища при тестировании каких-нибудь обновлений или глобальных изменений в прикладных системах виртуальных машин.
Auto-Restored Snapshot - данный тип диска как раз подходит для разработки и тестирования. В таком режиме хранилище виртуальных машин во время одной сессии iSCSI будет изначально работать в режиме снапшота, а при окончании сессии - снапшот откатится к изначальному состоянию. Представьте, например, что вы тестируете связку систем на хранилище, но не хотите вносить изменения в эталонный виртуальный диск. Для такого диска можно задать лимит хранимых снапшотов (опция Limit maximum number of stored snapshots).
Snapshot and CDP - в таком режиме StarWind будет автоматически создавать снапшоты хранилищ с заданным интервалом времени (опция Snapshot auto creation with interval of (minutes)). Такой тип диска полезен для постоянной защиты данных (Continuous Data Protection, CDP) хранилищ виртуальных машин от их утери или порчи. В случае сбоя можно откатиться к нужному снапшоту.
Read-Only - такой диск будет доступен только для чтения, и для него нельзя будет создать снапшот. Этот диск подходит для создания хранилищ с какими-нибудь дистрибутивами или шаблонами, куда не потребуется вносить изменения.

Теперь что касается восстановления хранилищ из снапшотов. Пока восстанавливать их из интерфейса StarWind нельзя (как, например, дерево снапшотов в VMware vSphere). Чтобы восстановить хранилище, вам понадобится пересоздать iSCSI Target и указать существующих виртуальный диск снапшота в папке с данным диском. В скором времени нам обещают восстановление снапшотов из GUI продукта StarWind.

Скачать пробную версию ПО StarWind Enteprise HA можно по этой ссылке. Купить StarWind можно в компании VMC.

Таги: StarWind, Enterprise, Snapshots, HA, Storage, iSCSI, VMware, vSphere, ESX, Hyper-V

Как контролировать число снапшотов виртуальной машины на VMware vSphere.

У многих пользователей часто возникают проблемы со снапшотами виртуальных машин. С одной стороны, они полезны при разработке и тестировании, но, с другой - вредны по причинам того, что они разрастаются, о них забывают, и, зачастую, они мешают функционированию виртуальной инфраструктуры VMware vSphere.

Есть способ ограничить количество снапшотов виртуальных машин в конфигурационном файле .vmx. Для этого откройте vSphere Client и в Configuration Parameters для виртуальной машины добавьте строчку:

snapshot.maxSnapshots = "n"

где n - число допустимых снапшотов (их не может быть больше 496, значение 0 - запретит снапшоты, даже для администраторов).