С появлением VMware Tanzu Data Intelligence предприятия получают единую, готовую к использованию AI-платформу данных, построенную на современной архитектуре lakehouse. Она способна бесшовно интегрировать различные типы данных, ускорять аналитику и обеспечивать встроенное управление по принципу «governance by design». В качестве ключевого аналитического ядра этой архитектуры VMware Tanzu Greenplum привносит массово-параллельную обработку и машинное обучение внутри базы данных в сам центр обработки данных корпоративного масштаба. Tanzu Greenplum обеспечивает высокопроизводительные возможности запросов, аналитики и обучения моделей, которые делают Tanzu Data Intelligence настоящим фундаментом для современных, основанных на данных и поддерживаемых AI-приложений. Анонсированная на VMware Explore 2025 версия Tanzu Greenplum 7.6 продолжит эту роль, предлагая значительные обновления, направленные на повышение скорости, устойчивости и гибкости.
Релиз Tanzu Greenplum 7.6 формировался, исходя из потребностей современного аналитического сообщества. В этой версии появляется прорывная возможность: Implied Index, также известный как Ghost Index, для сверхбыстрой аналитики на колоночных таблицах. Но это только начало. Tanzu Greenplum 7.6 также обеспечит молниеносное выполнение запросов и автоматическое, бесшовное восстановление после сбоев, предоставляя вашей платформе данных скорость, устойчивость и гибкость для масштабной современной аналитики.
Поддержка Ghost Index: Implied Index для AO-колоночных таблиц
Теперь вы можете достичь более высокой производительности запросов на колоночных таблицах без накладных расходов традиционных индексов. Append-Optimized (AO) Columnar Store в Tanzu Greenplum спроектирован для эффективной, высокоскоростной аналитики за счет устранения необходимости в ресурсоемких индексах и их постоянном обслуживании.
Как это работает:
Напрямую определяет совпадающие строки из колоночных данных, минимизируя лишние чтения
Материализует только строки, удовлетворяющие условиям запроса, экономя ресурсы
Объединяет битовые фильтры по столбцам для легкой обработки условий нескольких колонок
Эта архитектура без индексов идеально подходит для аналитических нагрузок с избирательными условиями WHERE, обеспечивая более быструю и масштабируемую производительность при минимальной сложности эксплуатации и низких затратах на хранение.
Улучшения производительности
Tanzu Greenplum 7.6 включает ряд функций и обновлений, повышающих производительность:
Ускорение за счет аппаратно-оптимизированного CRC
Tanzu Greenplum 7.6 использует векторные инструкции AVX-512 carry-less multiplication для ускорения вычислений CRC (циклический избыточный код), критически важных для операций, таких как целостность чтения/записи WAL и доступ к AO-таблицам. Используя высокопроизводительные инструкции AVX-512 для расчета контрольных сумм, Tanzu Greenplum 7.6 достигает более чем на 50% более быстрой обработки CRC. Эта низкоуровневая оптимизация имеет реальный эффект: рабочие нагрузки SELECT на широких таблицах показывают до 40% улучшения скорости запросов, что делает аналитику значительно быстрее и отзывчивее в масштабах.
Оптимизация соединений по столбцам с большим числом NULL-значений
Tanzu Greenplum 7.6 обеспечивает более умную оптимизацию запросов с избирательной фильтрацией соединений с учетом NULL, работающей на GPORCA. В сценариях, где ключи соединений содержат много NULL-значений, ненужные строки могут снижать производительность. Теперь Greenplum может интеллектуально применять фильтры IS NOT NULL для исключения строк, которые не могут совпасть — сокращая затраты на соединения и избегая дорогого перемещения данных.
Важно добавлять предикат IS NOT NULL только тогда, когда это действительно полезно. Для пояснения рассмотрим следующий SQL-запрос, который определяет торговых представителей и их регионы:
SELECT a.id, a.name, r.region_name F
ROM associates a
INNER JOIN regions r ON a.region_code = r.region_code;
В этом случае добавление условия a.region_code IS NOT NULL полезно только тогда, когда есть много сотрудников без назначенного региона. Вот где GPORCA особенно эффективен: он применяет эту оптимизацию только тогда, когда это дает измеримую выгоду, избегая ее в случаях, как outer join, или когда совпадения с NULL допустимы.
Результатом является потенциал более быстрых запросов, меньших затрат ресурсов и интеллектуальной оптимизации, адаптирующейся под ваши данные.
Оптимизация запросов к таблицам, распределенным по гетерогенным сегментам
Greenplum 7.6 делает масштабирование хранилища данных умнее благодаря улучшенной оптимизации запросов для несоразмещенных таблиц с помощью GPORCA. При расширении кластера бывает, что некоторые таблицы временно находятся на разных подмножествах сегментов до завершения перераспределения, что ведет к возможным потерям производительности.
В этой версии GPORCA автоматически вводит правильные стратегии перемещения данных для выравнивания таблиц на общих сегментах, обеспечивая более эффективное и стабильное выполнение запросов, даже если распределение временно несбалансировано.
Независимо от того, увеличиваете ли вы кластер или управляете динамическими нагрузками, Greenplum 7.6 обеспечивает плавную производительность на каждом этапе масштабирования.
Другие улучшения GPORCA
В этой версии команды смогут повысить производительность для еще более сложных нагрузок, включая:
LATERAL JOIN для более выразительных и гибких шаблонов запросов
Статическое и динамическое исключение секций в многоуровнево разделенных таблицах, ускоряя сканирование за счет пропуска нерелевантных данных
Более быстрые пути оптимизации для коротких запросов, что снижает накладные расходы на планирование и ускоряет получение результатов
В итоге, будь то ad hoc-запросы или масштабная аналитика, Tanzu Greenplum 7.6 обеспечивает более умное, быстрое и эффективное выполнение прямо «из коробки».
Повышение устойчивости
Автовосстановление кластера Greenplum
Tanzu Greenplum 7.6 модернизирует управление кластерами благодаря новой функции автоворстановления, разработанной для снижения нагрузки на администраторов БД путем автоматического обнаружения и восстановления поврежденных сегментов. Выполняя инкрементальные попытки восстановления с настраиваемыми интервалами (например, каждую минуту), эта возможность позволяет вашему кластеру оставаться здоровым и доступным при минимальном вмешательстве вручную.
Ненавязчивый механизм автоворстановления может избегать автоматической ребалансировки сегментов, позволяя нагрузкам продолжать выполняться плавно. Когда ребалансировка необходима, ее можно инициировать вручную или для конкретных сегментов, что дает полный контроль.
Работая на основе надежного фреймворка gpservice task, эта функция позволяет настраивать количество повторов и таймауты под нужды вашей среды, обеспечивая гибкое, бесшовное восстановление, которое сохраняет устойчивость и производительность вашего Greenplum-кластера — автоматически и без усилий.
Улучшенное дифференциальное восстановление
Greenplum 7.6 улучшает устойчивость кластера благодаря значительно более быстрому дифференциальному восстановлению, которое в большинстве случаев превосходит полное. Это стало возможным благодаря ключевым инновациям:
Параллельное выполнение rsync для сверхбыстрой передачи данных
Опция --inplace в rsync для снижения нагрузки на диск
Продвинутые пакетные проверки контрольных сумм для оптимизированных проверок целостности
Вместе эти улучшения сокращают окна восстановления и максимизируют доступность системы, так что ваш кластер Greenplum может восстанавливаться быстрее, не прерывая аналитику.
VMware Tanzu Greenplum 7.6 создан с акцентом на скорость и устойчивость. Попробуйте более быструю аналитику на колоночных таблицах с Ghost Index. Благодаря улучшенному оптимизатору GPORCA Greenplum 7.6 обеспечивает более умные и быстрые запросы — даже в самых сложных сценариях — а интеллектуальное автоворстановление кластера и молниеносное дифференциальное восстановление позволяют вашей системе оставаться в рабочем состоянии с минимальными усилиями.