Новости Статьи Российское ПО VMware Veeam StarWind vStack Microsoft Citrix Symantec События Релизы Видео Контакты Авторы RSS
Виртуализация и виртуальные машины

Все самое нужное о виртуализации и облаках

Более 6380 заметок о VMware, AWS, Azure, Veeam, Kubernetes и других

VM Guru / Articles / Автоматизация и оркестрация аварийного восстановления с помощью NAKIVO Backup and Replication

Автоматизация и оркестрация аварийного восстановления с помощью NAKIVO Backup and Replication

Автоматизация и оркестрация аварийного восстановления с помощью NAKIVO Backup and Replication

Автор: Александр Самойленко
Дата: 08/04/2022

Поддержите VM Guru!

USDT / TRC20, адрес: TCDP7d9hBM4dhU2mBt5oX2x5REPtq9QdU1




Статья:

Мы много писали о возможностях продукта для резервного копирования и восстановления виртуальной и физической инфраструктуры NAKIVO Backup and Replication. Мы подробно разбирали его возможности, средства защиты от вредоносного ПО, а также решения для бэкапа и восстановления приложений. Сегодня мы поговорим о том, как использовать продукт для аварийного восстановления инфраструктуры после больших сбоев и аварий.

Резервное копирование виртуальной инфраструктуры - это только одно из мероприятий, которое следует выполнять для ее полноценной защиты. Очевидно, что от единичного сбоя виртуальной машины или физического сервера вас защитят процедуры восстановления из резервной копии, а вот при массовом сбое или аварии (затопило этаж, сломалось блейд-шасси и т.п.) нужен план восстановления, обеспечивающий как требования к контрольной точке восстановления (RPO), так и требования ко времени восстановления (RTO), от которого зависит способность компании продолжать бизнес.

Ключевыми функциями в этом процессе являются оркестрация (Orchestration), которая подразумевает выполнение операций восстановления по строго определенному плану, а также автоматизация (Automation), что предполагает исполнение плана аварийного восстановления в полностью автоматическом режиме после нажатия кнопки оператором. Важно, что инициирование Disaster Recovery плана происходит вручную оператором, так как это очень затратная и сложная процедура, вносящая серьезные изменения в инфраструктуру, но само выполнение шагов после этого идет полностью автоматически.

Реальность такова, что если в большой инфраструктуре вы потеряете свои данные, то только 6% могут успешно восстановить их, а в остальных случаях компании придется закрыться в промежутке 2 лет:

Сейчас большие компании используют географически разнесенные датацентры, чтобы обеспечить защиту данных на уровне зданий и городов, а также применяют гибридные облачные среды (комбинация собственного ЦОД и облака сервис-провайдера) в целях повышения доступности сервисов для конечных пользователей, а также защиты от аварий и катастроф. Еще одно преимущество использования таких датацентров - это follow-the-sun и follow-the-moon стратегии, которые позволяют улучшить качество сервиса и снизить затраты.

Стоимость простоя при аварии в среднем по миру обходится в следующие суммы:

  • Малый бизнес - $8 580 в час
  • Средний - $215 637 в час
  • Крупный - $686 250 (несколько часов обходятся дороже купленных лицензий на продукт и железо для обеспечения катастрофоустойчивости)

А если учесть, что средняя продолжительность простоя при аварии составляет 18 часов, то можно сказать, что технически она может убить почти любой бизнес, который сильно зависит от работы ИТ-систем и доступности данных. Поэтому на каком-то этапе внедрять DR-решение нужно, вопрос только в затратах, которые компания готова понести.

Решение NAKIVO Backup and Replication позволяет комбинировать техники резервного копирования и репликации совместно с Disaster Recovery функциями, что не требует затрат на дополнительное ПО (но в железо для резервной площадки и каналы коммуникации придется все равно вложиться). Тут надо еще отметить, что решения NAKIVO предназначены для компаний любого масштаба, а значит вам не придется тратиться на новые продукты по мере роста инфраструктуры.

Итак, как в общем случае работает схема аварийного восстановления NAKIVO B&R:

  • Остановка виртуальных машин VMware или Hyper-V, а также инстансов в облаке EC2
  • Выполнение операций по восстановлению (Failover) или обратному восстановлению (Failback) для ВМ
  • Запуск задач по восстановлению данных, созданных в NAKIVO Backup & Replication
  • Выполнение кастомных специфических сценариев для ИТ-систем
  • Размонтирование и монтирование хранилищ данных
  • Отсылка администратору писем о завершении задач

Ключевая особенность NAKIVO здесь в том, что работа с задачами Site Recovery построена очень просто, все операции производятся в несколько кликов в графическом интерфейсе. Вот несколько примеров простого и универсального подхода, реализованного в продукте:

  • Вы можете настроить решение так, чтобы задача Site Recovery проверяла доступность ваших ВМ каждый час и оповещала о возможных проблемах.
  • Вы можете настроить задачу Site Recovery таким образом, чтобы она реагировала на небольшие аварии, например, путем миграции ключевых нагрузок в DR-локацию, после чего посылала письмо об успешном ее завершении.
  • Можно создать многоуровневую задачу Site Recovery для обработки сложных ситуаций, когда нужно учитывать возможные последствия аварии. Например, можно остановить некоторые текущие задачи (например, репликацию), выполнить кастомные скрипты, дать возможность что-то донастроить администратору (например, присоединить репозитории) и запустить процесс дальше.

При создании DR-плана нужно учитывать следующие аспекты его реализации:

  • Определите масштаб процедуры - какие ВМ и сервисы стоят в самом высоком приоритете и должны быть восстановлены первыми.
  • Определите ваше RPO (требования к контрольной точке восстановления) - на это влияет, какое количество данных во времени вам нужно реплицировать на резервную площадку.
  • Определите RTO (требования ко времени восстановления) - функции Site Recovery в NAKIVO Backup & Replication позволяют задать RTO и узнать, позволяет ли текущая инфраструктура резервирования обеспечить его.
  • Определите ресурсы резервной инфраструктуры - вам потребуются ресурсы RAM и CPU для размещения виртуальных машин, нужно понять, где будут находиться реплики ВМ, а также четко представлять, как будет работать сеть после восстановления ВМ.
  • Разработайте регламент тестирования процедуры восстановления - очень важно не только создать DR-план, но и регулярно проверять его в тестовой среде. Особенно это важно, когда шаги по восстановлению включают в себя сложные процедуры и кастомные операции.

Помните, что первый шаг создания инфраструктуры аварийного восстановления - это настройка репликации на резервную площадку. Только после того, как реплики будут созданы, вы можете начинать создавать DR-план.

Давайте посмотрим, как выглядит процесс создания задачи репликации в целях Site Recovery в NAKIVO Backup & Replication:

Мастер задачи репликации проведет вас по всем шагам настройки процесса - это не сложно. Главное - это правильно настроить хранилища данных для реплик, помните, что они в случае аварии возьмут на себя продуктивные ВМ с большой нагрузкой на системы хранения.

Вторая важная часть - это отображение IP-адресов (Network Mapping), чтобы на резервной площадке виртуальные машины "вписались" в инфраструктуру с другой схемой адресации. В процессе исполнения плана аварийного восстановления переназначение IP-адресов происходит автоматически, в соответствии с преднастроенными правилами.

При создании плана Site Recovery вы можете создать несколько задач. Как говорилось выше, можно сделать задачу для небольшого сегмента наиболее критичных систем, а можно восстановить всю инфраструктуру целиком. Также, например, можно сделать отдельную задачу мониторинга доступности вашей виртуальной инфраструктуры, которая тестирует ее каждые 5 минут и посылает письмо администратору в случае аварии.

Также, в отличие от других решений, NAKIVO Backup & Replication имеет расширенный функционал при настройке шагов аварийного восстановления. Например, вы можете в рамках одного из шагов погасить некритичные виртуальные машины на резервной площадке, чтобы важные виртуальные машины, которые туда переедут, получили больше вычислительных ресурсов.

Для того, чтобы все шаги работали согласованно у NAKIVO есть механизм Action Options. При выполнении каждого шага вы можете задать поведение системы в рамках DR-плана:

  • Run this action in - эта опция определяет, нужно ли выполнять это действие только в производственном режиме восстановления, либо только во время тестирования, либо в обоих случаях.
  • Waiting behavior - вы можете решить, нужно ли ожидать какое-то время перед запуском следующего шага, чтобы текущая задача завершилась.
  • Error handling - эта опция регулирует обработку ошибок, которые могут возникнуть в процессе плана аварийного восстановления.

Также можно задать не только план аварийного восстановления (Failover), но и план восстановления инфраструктуры обратно (Failback) для случая, когда работа основной площадки будет восстановлена.

Ну и вы можете задать тип плана - тестовый или производственный, а также определить расписание для регулярного исполнения тестового плана:

После исполнения тестового плана администратор получит на почту отчет о выполненных и невыполненных шагах, что позволит понять наиболее узкие места плана, а также донастроить его, чтобы он работал как часы.

Если вы исполняете тестовый план, то по окончании процедуры Failover будет проведена процедура обратного восстановления (Failback), чтобы привести инфраструктуру в исходное состояние. Ну и удобно то, что восстановление продуктивных систем будет проводиться в изолированный сегмент сети, чтобы не задеть производственные процессы компании.

Есть 2 типа полноценного аварийного восстановления:

  • Planned Failover - этот метод используется для штатного восстановления систем, когда вы знаете о том, что с основной площадкой что-то случится. Например, вам сказали, что электричество в датацентре отключится через 30 минут.
  • Emergency Failover - эта операция выполняется в ситуации непредсказуемой аварии. В этом случае все процедуры будут проводиться как можно быстрее, без финальной синхронизации данных при переключении на резервную площадку, чтобы обеспечить требуемый показатель RTO.

При восстановлении в рамках производственного рабочего процесса автоматического Failback не произойдет - для этого вам потребуется создать отдельную задачу. Для Failback вам потребуется предварительно создать задачи обратной репликации, чтобы потом переключиться обратно на бывшую основной площадку. Кстати, восстановление данных вы можете провести и в другую локацию. Например, ваша основная площадка потеряна навсегда или выводится из эксплуатации, а ваши продуктивные нагрузки переезжают в облако.

Скачать бесплатную версию решения NAKIVO Backup & Replication вы можете по этой ссылке.

Интересное:





Зал Славы Рекламодателя
Ближайшие события в области виртуализации:

Быстрый переход:
VMachines VMware Veeam Broadcom Offtopic Microsoft Cloud StarWind NAKIVO vStack Gartner Vinchin Nakivo IT-Grad Teradici VeeamON VMworld PowerCLI Citrix VSAN GDPR 5nine Hardware Nutanix vSphere RVTools Enterprise Security Code Cisco vGate SDRS Parallels IaaS HP VMFS VM Guru Oracle Red Hat Azure KVM VeeamOn 1cloud DevOps Docker Storage NVIDIA Partnership Dell Virtual SAN Virtualization VMTurbo vRealize VirtualBox Symantec Softline EMC Login VSI Xen Amazon NetApp VDI Linux Hyper-V IBM Google VSI Security Windows vCenter Webinar View VKernel Events Windows 7 Caravan Apple TPS Hyper9 Nicira Blogs IDC Sun VMC Xtravirt Novell IntelVT Сравнение VirtualIron XenServer CitrixXen ESXi ESX ThinApp Books P2V HCX VCF Live Recovery vDefend vSAN CloudHealth NSX Labs Backup AI Chargeback Aria VCP Intel Community Ransomware Stretched Private AI Workstation Network Tanzu VMUG VCPP Explore Data Protection ONE V2V DPU Update EUC Avi Skyline Host Client GenAI Horizon SASE Workspace ONE Networking Tools Performance Lifecycle AWS API USB SDDC Fusion Whitepaper SD-WAN Mobile SRM ARM HCI Converter Photon OS Operations VEBA App Volumes Certification VMConAWS Workspace Imager SplinterDB DRS SAN vMotion Open Source iSCSI Partners HA Monterey Kubernetes RDMA vForum Learning vRNI UAG Support Log Insight AMD vCSA NSX-T Graphics NVMe HCIBench SureBackup Docs Carbon Black vCloud Обучение Web Client vExpert OpenStack UEM CPU PKS vROPs Stencils Bug VTL Forum Video Update Manager VVols DR Cache Storage DRS Visio Manager Virtual Appliance PowerShell LSFS Client Datacenter Agent esxtop Book Photon Cloud Computing SSD Comparison Blast Encryption Nested XenDesktop VSA vNetwork SSO VMDK Appliance VUM HoL Automation Replication Desktop Fault Tolerance Vanguard SaaS Connector Event Free SQL Sponsorship Finance FT Containers XenApp Snapshots vGPU Auto Deploy SMB RDM Mirage XenClient MP iOS SC VMM VDP PCoIP RHEV vMA Award Licensing Logs Server Demo vCHS Calculator Бесплатно Beta Exchange MAP DaaS Hybrid Monitoring VPLEX UCS GPU SDK Poster VSPP Receiver VDI-in-a-Box Deduplication Reporter vShield ACE Go nworks iPad XCP Data Recovery Documentation Sizing Pricing VMotion Snapshot FlexPod VMsafe Enteprise Monitor vStorage Essentials Live Migration SCVMM TCO Studio AMD-V KB VirtualCenter NFS ThinPrint Memory Orchestrator ML Director SIOC Troubleshooting Bugs ESA Android Python Upgrade Hub Guardrails CLI Driver Foundation HPC Optimization SVMotion Diagram Ports Plugin Helpdesk VIC VDS Migration Air DPM Flex Mac SSH VAAI Heartbeat MSCS Composer
Полезные постеры:

Постер VMware vSphere PowerCLI 10

Постер VMware Cloud Foundation 4 Architecture

Постер VMware vCloud Networking

Постер VMware Cloud on AWS Logical Design Poster for Workload Mobility

Постер Azure VMware Solution Logical Design

Постер Google Cloud VMware Engine Logical Design

Постер Multi-Cloud Application Mobility

Постер VMware NSX (референсный):

Постер VMware vCloud SDK:

Постер VMware vCloud Suite:

Управление памятью в VMware vSphere 5:

Как работает кластер VMware High Availability:

Постер VMware vSphere 5.5 ESXTOP (обзорный):

 

Популярные статьи:
Как установить VMware ESXi. Инструкция по установке сервера ESXi 4 из состава vSphere.

Включение поддержки технологии Intel VT на ноутбуках Sony VAIO, Toshiba, Lenovo и других.

Типы виртуальных дисков vmdk виртуальных машин на VMware vSphere / ESX 4.

Как работают виртуальные сети VLAN на хостах VMware ESX / ESXi.

Как настроить запуск виртуальных машин VMware Workstation и Server при старте Windows

Сравнение Oracle VirtualBox и VMware Workstation.

Диски RDM (Raw Device Mapping) для виртуальных машин VMware vSphere и серверов ESX.

Что такое и как работает виртуальная машина Windows XP Mode в Windows 7.

Где скачать последнюю версию VMware Tools для виртуальных машин на VMware ESXi.

Работа с дисками виртуальных машин VMware.

Подключение локальных SATA-дисков сервера VMware ESXi в качестве хранилищ RDM для виртуальных машин.

Как перенести виртуальную машину VirtualBox в VMware Workstation и обратно

Как поднять программный iSCSI Target на Windows 2003 Server для ESX

Инфраструктура виртуальных десктопов VMware View 3 (VDI)

Как использовать возможности VMware vSphere Management Assistant (vMA).

Интервью:

Alessandro Perilli
virtualization.info
Основатель

Ратмир Тимашев
Veeam Software
Президент


Полезные ресурсы:

Последние 100 утилит VMware Labs

Новые возможности VMware vSphere 8.0 Update 1

Новые возможности VMware vSAN 8.0 Update 1

Новые документы от VMware

Новые технологии и продукты на VMware Explore 2022

Анонсы VMware весной 2021 года

Новые технологии и продукты на VMware VMworld 2021

Новые технологии и продукты на VMware VMworld 2020

Новые технологии и продукты на VMware VMworld Europe 2019

Новые технологии и продукты на VMware VMworld US 2019

Новые технологии и продукты на VMware VMworld 2019

Новые технологии и продукты на VMware VMworld 2018

Новые технологии и продукты на VMware VMworld 2017



Copyright VM Guru 2006 - 2025, Александр Самойленко. Правила перепечатки материалов.
vExpert Badge