[Яндекс Практикум] MLOps для разработки и мониторинга моделей [Катерина Цаплина, Антон Алексеев]

Robot · Четверг в 01:13

Это курс для специалистов с опытом, которые хотят профессионально вырасти

Нужно знать основы SQL и объектно-ориентированного программирования, уметь использовать Python для решения ML-задач, быть знакомым с проектированием веб-сервисов на Flask, FastAPI или Django, работать в Git на уровне открытого PR и с простыми пайплайнами по обработке данных в оркестраторах общего применения Airflow или Prefect

Специалисты в области Data Science и Machine Learning
Разберётесь в ключевых практиках и инструментах MLOps, чтобы разворачивать и управлять ML-моделями в продакшн-среде
ML-инженеры и специалисты по DevOps
Структурируете знания и освоите подход к управлению жизненным циклом ML-моделей: автоматизируете развёртывание, настройку мониторинга и обновление моделей в продакшене
Инженеры данных
Погрузитесь в новую предметную область и выйдете за рамки классических ETL-процессов: научитесь организовывать и сопровождать ML-модели в продакшене

Через 5 месяцев вы сможете:

Оценивать зрелость ML-проекта при помощи фреймворка MLOps-зрелости
Развёртывать ML-модели в продакшене
Настраивать и поддерживать CI/CD-процессы для ML, чтобы автоматизировать обновление и интеграцию моделей
Разрабатывать MLOps-архитектуру, адаптированную под конкретный кейс
Выбирать подходящий способ деплоя в зависимости от бизнес-требований
Работать в облачной среде и управлять ML-инфраструктурой при помощи Yandex Cloud
Автоматизировать жизненный цикл ML-модели: предобработку данных, эксперименты, развёртывание и мониторинг
Обеспечивать надёжность и контроль качества моделей с помощью версионирования, тестирования, мониторинга данных и метрик
Взаимодействовать с другими специалистами, создавая комплексные ML-решения, готовые к масштабированию

Освоите стек технологий, который соответствует современным требованиям MLOps:

Python
Git
Docker
Docker Compose
FastAPI
MLflow
ClearML
S3
Yandex Cloud
Prometheus Stack
Evidently
Great Expectations
Airflow
PostgreSQL
Linux
GitLab CI
CI/CD
NFS
Kserve

Программа:

Введение в MLOps
Практики разработки
DevOps- и CI/CD-практики
Контейнеризация и облачное окружение
Качество и версионирование данных
Отслеживание экспериментов, управление ML-моделями и их хранение
Оркестрация и ML-пайплайны
Развёртывание ML-моделей
Мониторинг и обратная связь

Подробная программа:

1. Введение в MLOps

Карта профессионального развития
Освежите знания по MLOps и роли MLOps в жизненном цикле ML-проекта. Рассмотрите модели зрелости от Microsoft, Google и GigaOm. Оцените свои проекты. Составите карту своего профессионального развития с учётом навыков, которые получите на курсе

Проект

Составите карту ваших навыков в MLOps и определите траекторию профессионального развития

Инструменты и технологии

MLOps
Жизненный цикл
Модели зрелости
Карта профессионального развития

Содержание

Роль MLOps в жизненном цикле ML-проекта
Поймёте роль MLOps в жизненном цикле ML-модели: от подготовки данных до продакшна и мониторинга. Узнаете, как связаны этапы разработки и эксплуатации, какую ценность MLOps приносит бизнесу — скорость, стабильность, качество решений
Зрелость MLOps и платформенный подход
Изучите модели зрелости MLOps. Узнаете, как оценивать уровень проекта. Разберёте ключевые компоненты MLOps-платформ. Поймёте, как платформизация помогает стандартизировать процессы и ускорять разработку
Профессия MLOps-инженера и карта развития
Рассмотрите роль MLOps-инженера как специалиста на стыке Data Science, разработки и инфраструктуры. Определите зоны ответственности и ключевые навыки. Оцените свой текущий уровень компетенций и сформируете персональную траекторию развития

2. Практики разработки

Перейдёте от хаотичной разработки к созданию профессиональных и надёжных ML-решений, которые легко поддерживать

Проект

Сделаете ревью кода для ML-проекта

Инструменты и технологии

uv
Pylint/Ruff
mypy
PyTest
Docker
Docker Compose

Содержание

Управление зависимостями
Настроите изолированное окружение с uv, изучите безопасное обновление библиотек и автоматизацию процессов
Качество кода
Научитесь применять автоформатирование, линтинг (PEP8) и статическую типизацию для повышения читаемости, предсказуемости и надёжности кода
Промышленные ML-пайплайны
Научитесь организовывать эксперименты, создавать масштабируемые и поддерживаемые решения
Тестирование ML
Напишете чистые, изолированные и воспроизводимые тесты для всех компонентов (данные, модели, логика) с использованием PyTest

3. DevOps- и CI/CD-практики

Научитесь внедрять DevOps-практики в MLOps: от теории ограничений и Linux-администрирования до построения CI/CD-пайплайнов для ML-приложений с контейнеризацией, деплоем на VM и управлением артефактами

Проект

Создадите GitLab-пайплайн для линтинга, сборки и деплоя на VM

Инструменты и технологии

GitLab CI
Docker
Docker Compose
S3
NFS
Linux
Systemd
Yandex Cloud

Содержание

Философия DevOps и MLOps
Узнаете теорию ограничений и принципы бережливого производства. Поймёте, как находить и устранять узкие горлышки в ML-системах
Инфраструктура для MLOps
Освоите администрирование Linux-серверов: работу с Systemd, переменными окружения, сетевыми хранилищами (NFS) и облачными объектными хранилищами (S3)
Непрерывная интеграция — CI
Научитесь автоматизировать этапы линтинга кода, обучения моделей и сохранения артефактов (весов моделей) в S3 с помощью GitLab CI
Непрерывное развёртывание — CD
Настроите автоматический деплой Docker-контейнеров на удалённые виртуальные машины. Научитесь безопасно управлять секретами и использовать современные инструменты сборки образов

4. Контейнеризация и облачное окружение

Настроите облачное окружение с необходимыми инструментами в Yandex Cloud

Проект

Сделаете ревью кода для ML-проекта

Инструменты и технологии

Python
Docker
Docker Compose
Git
Yandex Cloud

Содержание

Знакомство с Docker
Научитесь устанавливать Docker, создавать образы и управлять контейнерами. Освоите контейнеризацию ML-сервисов с оптимизацией (dockerignore, multistage build)
Оркестрация сервисов
Соберёте и научитесь управлять многосервисной инфраструктурой с помощью Docker Compose, а также диагностировать взаимодействия

5. Качество и версионирование данных

Научитесь проектировать data-пайплайны для ML, диагностировать проблемы данных (пропуски, дрифты), внедрять валидацию через Pandera/Great Expectations и версионировать датасеты с DVC для воспроизводимости

Проект

Выявите Data Drift (метрики PSI, KS, библиотека Evidently), сравните исторические и текущие данные, опишете схемы (Pandera, Pydantic) для обнаружения ошибок типов, пропусков и выбросов. Также автоматизируете тесты качества и отчёты при помощи Great Expectations

Инструменты и технологии

Pydantic
Great Expectations
ClearML

Содержание

Введение в data engineering для ML
Изучите путь данных от источников до модели: типы хранилищ (объектные/табличные/файловые), стратегии инжеста, критерии выбора инфраструктуры под задачи ML
Проблемы качества данных и метрики
Научитесь распознавать ошибки данных (дубликаты, некорректные форматы, схематические несоответствия), рассчитывать метрики completeness/validity/uniqueness и анализировать их влияние на модели
Data Drift и Schema Drift
Поймёте различия между Data/Target/Concept/Schema Drift, сделаете ручное обнаружение дрифтов (PSI/KS-тесты), автоматизируете мониторинг с Evidently и интерпретируете отчёты

6. Отслеживание экспериментов, управление ML-моделями и их хранение

Освоите ключевые инструменты MLOps (MLflow и ClearML) и научитесь управлять полным жизненным циклом ML-проектов — от логирования экспериментов до реестра моделей, деплоя и оркестрации ресурсов

Проект

Настроите ClearML: сервер, версионирование экспериментов, реестр моделей, S3-хранилище и управление агентами

Инструменты и технологии

Python
MLflow
ClearML

Содержание

MLflow
Разберёте задачи, которые решает инструмент MLOps. Сравните возможности MLflow и ClearML. Научитесь фиксировать параметры и метрики экспериментов, отслеживать их результаты и сравнивать запуски между собой. Освоите реестр моделей и встроенный механизм развёртывания
ClearML
Изучите принципы работы этой платформы. Научитесь отслеживать эксперименты и управлять версиями моделей. Разберёте развёртывание моделей и их обновление в ClearML
Оркестрация ресурсами ClearML
Познакомитесь с концепцией агента ClearML и принципами распределённого выполнения задач. Поймёте, как организовать масштабируемый запуск экспериментов

7. Оркестрация и ML-пайплайны

Освоите полный цикл оркестрации ML: автоматизируете подготовку данных, эксперименты, обучение моделей и их деплой в продакшн с помощью промышленных инструментов

Проект

Построите воспроизводимый ML-пайплайн для приложения

Инструменты и технологии

Airflow
ClearML
Docker
Kubernetes
S3
Yandex Cloud

Содержание

Батч-оркестрация с Airflow
Сможете описывать и планировать ETL-процессы с помощью DAG. Узнаете, как автоматизировать загрузку и обработку данных из S3
Оркестрация ML-экспериментов в ClearML
Научитесь создавать воспроизводимые ML-пайплайны для обучения, валидации и сравнения множества моделей с параллельным запуском экспериментов
Развёртывание в Kubernetes с помощью Helm
Поймёте основы Kubernetes. Разберётесь в управлении развёртыванием ML-сервисов с помощью Helm-чартов, стандартизацией и контролем версий инфраструктуры
Распределённые вычисления и продакшн-деплой
Настроите ClearML Agent в Kubernetes для распределённого выполнения задач. Автоматизируете процесс выбора лучшей модели и её деплоя в Serving
Сравнительный анализ инструментов
Изучите экосистему оркестраторов: Airflow, Mage, Prefect, Argo Workflows. Поймёте их сильные и слабые стороны в реальных проектах

8. Развёртывание ML-моделей

Спроектируете, развернёте и оптимизируете системы для пакетного и онлайн-инференса. Выберете подходящие инструменты и форматы моделей, чтобы обеспечить производительность и масштабируемость

Проект

Развернёте ML-приложение в Kubernetes

Инструменты и технологии

ClearML
Kubernetes
Kserve
ONNX
S3
GitLab Registry
Yandex Cloud

Содержание

Офлайн-инференс в ClearML
Автоматизируете пакетные предсказания по расписанию с распределённой обработкой данных и управлением артефактами в S3
Онлайн-инференс в Kubernetes
Разработаете и задеплоите ML-сервис в k8s: используете Init-контейнеры и Secrets, обеспечите доступ к моделям из S3
Оркестрация инференса с Kserve
Создадите высокопроизводительный инференс-сервис с автоматическим масштабированием, мониторингом и интеграцией с объектными хранилищами
Оптимизация моделей
Конвертируете модели в форматы ONNX для ускорения предсказаний. Сравните производительность разных форматов

9. Мониторинг и обратная связь

Спроектируете и развернёте систему полного цикла мониторинга для ML-проектов. Будете отслеживать работоспособность инфраструктуры и качество моделей. Автоматизируете реакцию на инциденты.

Проект

Построите систему полного цикла мониторинга для ML-приложения: от сбора метрик и визуализации в Grafana до настройки алертов и интеграции с CI/CD. Автоматизируете обновление моделей в продакшене

Инструменты и технологии

Prometheus
Grafana
Loki
Evidently
Alertmanager
Yandex Cloud

Содержание

Инфраструктурный мониторинг
Научитесь собирать системные метрики (CPU, RAM, GPU) и метрики приложений (latency, throughput) с помощью Prometheus. Создадите дашборды в Grafana для визуализации состояния системы.
Централизованное логирование и алертинг
Настроите сбор логов с помощью Loki, интегрируете их в Grafana. Создадите правила для автоматического оповещения о проблемах через Alertmanager.
Мониторинг качества ML-моделей
Научитесь отслеживать метрики качества и анализировать поведение моделей — изменения распределений признаков и предсказаний, data drift и concept drift. Рассмотрите библиотеку Evidently: от расчёта метрик до интеграции с системой мониторинга и настройки порогов алертов.
Мониторинг в CI/CD и автоматизация реагирования
Интегрируете проверки качества в пайплайн. Автоматизируете переобучение и деплой новых версий моделей при срабатывании алертов.