Robot
Складчик
- #1
[Яндекс Практикум] Обработка естественного языка — NLP (Антон Моргунов, Даниил Вяжев)
- Ссылка на картинку

Natural Language Processing позволяет нейросетям понимать человека
В том числе имитировать разговор, выполнять запросы, извлекать пользу из массивов естественной речи
Например, NLP используют чат‑боты, голосовые ассистенты, автопереводчики, сложные аналитические системы
Курс подойдёт тем, у кого есть опыт работы с данными, Machine Learning и Deep Learning:
00 Бесплатная часть. Нейросетевые решения на практике
Практическая работа
Проект
Проект
Проект
Проект
Они собрали и систематизировали свои знания, чтобы вы учились на реальных кейсах, с которыми сталкиваются специалисты на практике
В том числе имитировать разговор, выполнять запросы, извлекать пользу из массивов естественной речи
Например, NLP используют чат‑боты, голосовые ассистенты, автопереводчики, сложные аналитические системы
Курс подойдёт тем, у кого есть опыт работы с данными, Machine Learning и Deep Learning:
- Специалистам в области Data Science
Разберёте методы извлечения признаков из текста и сможете применять NLP для работы с большими данными и решения бизнес-задач - DL- и ML-инженерам
Изучите способы обработки текстовых данных и современные архитектуры и будете использовать NLP в своих реальных проектах - Разработчикам
Освоите актуальные библиотеки и инструменты, чтобы внедрить технологии NLP в разработку приложений, которые используют текстовые данные
- GPT
- RoBERTa
- DeBERTa
- NER
- AutoGen
- STF
- PEFT
- RLHF
- LoRA
- vLLM
- TS
- Seq2Seq
- RAG
- ANN
- FAISS
- BM25
- CLIP
- SigLip
- Векторные БД
- Florence
- LangChain
- AutoGen
- smolagents
- MCP
- ElasticSearch
- Понимать и применять современные NLP-модели: от BERT до LLM
- Строить RAG и агентные системы
- Обучать LLM с оптимизацией операций на GPU
- Создавать модели генерации текста, перевода, NER и мультимодальные решения
- Работать с поиском: от классического BM25 до векторного по эмбеддингам
- Сопровождение кураторами
- Обратная связь от опытных наставников
- Воркшопы с экспертами
- Теория на платформе Практикума
- Практические задания с ревью на готовой инфраструктуре в облаке
- Ключевые NLP-архитектуры: от вариаций BERT до RAG и агентных систем
- Фокус на актуальные задачи: NER, QA, VQA, машинный перевод и сценарии с RAG
- Удостоверение о повышении квалификации
00 Бесплатная часть. Нейросетевые решения на практике
Практическая работа
- Научитесь использовать предобученные модели для анализа текста и изображений и интерпретировать результаты их работы
- PyTorch
- CV
- NLP
- Знакомство с курсом
Узнаете, как организован курс: из чего состоит программа, как устроена платформа, какие активности вас ждут - Введение в нейросети и их роль в решении сложных задач
Поймёте, в каких областях применяются нейросети и какие задачи они решают в реальной жизни - Работа с текстами
Классифицируете тексты с использованием предобученной модели - Работа с изображениями
Классифицируете изображения с помощью предобученной модели - Нейросети на практике
Научитесь использовать нейросети в повседневной практике и для решения профессиональных задач
Проект
- Решите задачу NER, выявив все сущности, и предскажете, сколько их в тексте, через регрессию по CLS
- RoBERTa
- XLM-RoBERTa
- DeBERTa
- NER
- PyTorch Lightning
- DP
- DDP
- FSDP
- Multi-Head Attention и BERT
Разберёте трансформер на уровне тензоров, attention-механизм, позиционные эмбеддинги и skip connections. Напишете полный encoder с нуля. Изучите архитектуру BERT, задачи MLM и NSP, CLS-токен, ограничения attention и такие решения, как flash/sparse attention - Эволюция моделей в NLP
Сравните токенизаторы (BPE, WordPiece и другие) по стабильности и размеру словаря. Рассмотрите развитие моделей: RoBERTa, XLM-R, DeBERTa, e5, включая мультиязычные и облегчённые версии для продакшна. Изучите NER: BIO-разметку, entity spans, лоссы - Эффективная тренировка моделей
Освоите float16, bfloat16, mixed precision, включите AMP в PyTorch. Изучите квантизацию (PTQ, QAT) и распределённую тренировку (DataParallel, DDP, FSDP). Разберёте torch.compile и научитесь работать с PyTorch Lightning
Проект
- Дообучите языковую модель, чтобы управлять генерацией текстов на разных этапах — pretrain, SFT, alignment
- LoRA
- QLoRA
- SFT
- TRL
- vLLM
- FlashAttention
- Triton
- ALiBi
- RoPE
- Введение в большие языковые модели
Изучите фундаментальные концепции LLM. Рассмотрите архитектуры для генерации текста: decoder-only, encoder-decoder, диффузионные модели. Разберётесь с устройством attention-масок, их влиянием на генерацию. Реализуете вызов API через OpenRouter. Исследуете ограничения LLM - Архитектура и принципы работы LLM
Узнаете принципы обучения декодера. Реализуете цикл генерации текста с чат-шаблонами Jinja. Рассмотрите методы улучшения генерации: In-Context Learning, reasoning, CoT. Изучите стратегии генерации текста: beam search, sampling, temperature, top-k, top-p, repetition penalty. Поймёте причины их выбора - Оптимизации в LLM
Попробуете методы обучения и оптимизации LLM: LoRA, QLoRA, адаптеры, PEFT и Unsloth. Поймёте проблему длинного контекста. Освоите методы расширения контекста: KV cache, paged attention, speculative decoding, continuous batching. Проведёте оптимизацию на GPU с использованием Triton, fused layers и FlashAttention. Примените gradient checkpointing и выберете стратегии обучения под ресурсы и скорость
Проект
- Разработаете retrieval-систему по статьям из arXiv, с поиском по документам и генерацией ответов на естественном языке
- T5
- LoRA
- Seq2Seq
- BLEU
- ROUGE
- chrF
- COMET
- RAG
- Векторные базы данных
- LangChain
- Архитектуры Seq2Seq в трансформерах
На примере T5 и русскоязычных аналогов разберёте архитектуру encoder-decoder. Поймёте принципы cross-attention и teacher forcing. Изучите метрики BLEU и ROUGE. Примените T5 к разным NLP-задачам. Освоите предобучение T5 с помощью span corruption. Рассмотрите ключевые бенчмарки - Генерация текста для практических задач
Изучите модели машинного перевода mT5 и NLLB. Освоите их дообучение для доменов. Разберёте методы улучшения параллельных корпусов: выравнивание, фильтрацию, back-translation и paraphrasing. Решите NER-задачу в формате генерации с промптингом и constrained decoding. Дообучите Seq2Seq-модели и оцените качество перевода - Retrieval-Augmented Generation — RAG
Узнаете причины галлюцинаций и как RAG снижает риск ошибок. Изучите bi-encoder и cross-encoder, гибридный поиск и векторные базы (FAISS, Chroma, Qdrant). Рассмотрите методы снижения размерности и индексации. Построите RAG-пайплайн: от подготовки документов до генерации ответа. Освоите LangChain и оценку качества поиска
Проект
- Разработаете модель, которая будет искать изображения по описанию, проверять их на релевантность и отвечать на вопросы по содержанию
- rapidfuzz
- OpenSearch
- datasketch
- LangChain
- AutoGen
- smolagents
- MCP
- CLIP
- SigLIP
- BLIP
- LLaVA
- Florence
- Полнотекстовый поиск
Рассмотрите нечёткий поиск и алгоритм Левенштейна. Освоите rapidfuzz и BM25. Поработаете с индексами в OpenSearch. Разберёте расширенные техники поиска. Изучите LSH с datasketch. Сравните подходы через хэши и эмбеддинги. Реализуете гибридный поиск с опечатками, а также индексацию и дедупликацию коллекций - Агенты
Изучите function calling, structured output, а также интеграцию функций через LangChain. Разберёте агентные системы: ReAct, LLM-as-judge и современные фреймворки (AutoGen, smolagents), а также протокол MCP. Создадите агента для работы с интернетом и веб-страницами. Рассмотрите архитектуры Perplexity и Deep Research - Мультимодальные архитектуры
Узнаете, как создаются мультимодальные датасеты и бенчмарки. Разберёте CLIP и его варианты (SigLIP, ViT-L/14), а также модели BLIP, Florence и LLaVA для VQA. Научитесь выявлять ошибки аннотаций с помощью CLIP и применять его для поиска, очистки датасетов и VQA-задач
Они собрали и систематизировали свои знания, чтобы вы учились на реальных кейсах, с которыми сталкиваются специалисты на практике
- Антон Моргунов
Программный эксперт курса. Senior ML-инженер в Базис Центре - Даниил Важев
Исследователь в Научно-учебной лаборатории моделей и методов вычислительной прагматики в ВШЭ. Мидл DL/ML-инженер в НБКИ. PhD Student в Сколтехе - Кирилл Бобылев
Senior Data Scientist в Ozon Tech. Специализируется в Moderation, Anti-fraud, QC - Станислав Жбанников
NLP-инженер в GigaChat Pretrain. Занимается оптимизацией обучения крупных MoE-моделей. Был Lead Data Scientist в Ecom.tech, руководил DS-командой разработки умного ассистента для поиска товаров
Показать больше
Зарегистрируйтесь
, чтобы посмотреть скрытый контент.