На сайте проекта VMware Labs появилась интересная штука для Data Scientist'ов - средство Federated Machine Learning on Kubernetes. Техника Federated Learning предполагает распределенную модель создания систем в области больших данных средствами машинного обучения, без необходимости расшаривать тренировочный датасет с централизованной ML-системой и другими пользователями.
Проще это понять на примере - есть такие задачи, где данные нужно обрабатывать ML-алгоритмами (например, предиктивная клавиатура Gboard от Google, которая, кстати, круче яблочной), но сами данные (набранные тексты) на центральный сервер передавать нельзя (иначе это нарушение пользовательской приватности). В этом случае распределенная система Federated Learning позволяет обрабатывать модели на оконечных устройствах. Координация тренировки моделей при этом может быть централизованная или децентрализованная. Примерами также здесь могут служить такие сферы, как кредитный скоринг, медицинские данные, страхование и многое другое, где есть большие данные и строгие правила их хранения и обработки.
Практическим воплощением принципов FL является фреймворк FATE, который поддерживается сообществом Linux Foundation. Компания VMware выпустила средство Federated Machine Learning on Kubernetes, которое позволяет быстро развернуть и управлять кластером Docker / Kubernetes, который содержит в себе компоненты FATE. В такой среде можно делать следующие вещи:
Разрабатывать и тестировать модели в Jupyter с использованием технологий Federated Machine Learning
Построить FATE-кластер с полным жизненным циклом обслуживания, в том числе на базе платформ MiniKube, Kubernetes on AWS/Google Cloud/Azure, VMware PKS и VMware Tanzu
Утилита командной строки, которая доступна в рамках данного средства, позволяет создать и развернуть весь FATE-кластер на базе уже готовой конфигурации, которую можно кастомизировать по своему усмотрению.
Для работы с Federated Machine Learning on Kubernetes можно использовать Docker 18+ / Docker-compose 1.24+, либо Kubernetes v1.15+, также вам потребуется Linux-машина для исполнения CLI-интерфейса утилиты. Загрузить данное средство можно по этой ссылке, документация доступна тут.