Нафаня
Организатор
- #1
[МФТИ] Продвинутые методы машинного обучения 2021 [Олег Ивченко]
- Ссылка на картинку
Программа профессиональной переподготовки.
Программа профессиональной переподготовке включает три курса:
1. Анализ изображений
2. Анализ текстов
3. Машинное обучение на больших объемах данных.
Программа профессиональной переподготовке включает три курса:
1. Анализ изображений
2. Анализ текстов
3. Машинное обучение на больших объемах данных.
Блок 1 - Анализ изображений
Модуль 1 - Введение в анализ изображений. Основы обработки изображений
1.1. Введение в анализ изображений.
2.1. Локальные особенности изображений
3.1. Категоризация изображений
4.1. Интернет-зрение
Модуль 1
Модуль 1 - Методы оптимизации и линейные модели
Модуль 1 - Введение в анализ изображений. Основы обработки изображений
1.1. Введение в анализ изображений.
- Задачи компьютерного зрения – метрическое и семантическое зрение.
- Возникающие трудности и визуальные подсказки.
- Примеры современных систем и алгоритмов компьютерного зрения.
- Устройство камеры и оптической системы человека.
- Модели цвета.
- Основные задачи обработки изображений.
- Цветокоррекция изображений. Гистограммы, линейная и нелинейная коррекции яркости. Модели камеры и цветокоррекции.
- Виды шума. Операция свертки. Фильтр гаусса, медианный фильтр, повышение резкости. Выравнивание освещенности – алгоритм Retinex. Метрика PSNR.
- Выделение краев, алгоритм Canny.
- Частотное представление изображений, частотная фильтрация изображений, алгоритм JPEG. Простая сегментация изображений - бинаризация, выделение связанных компонент, математическая морфология.
- Понятие текстуры.
- Эвристические методы распознавания с помощью признаков сегментов.
2.1. Локальные особенности изображений
- Задача сопоставления изображений. Понятие локальной особенности.
- Детекторы Харриса, LoG, DOG, Harris-Laplacian.
- Сопоставление особенностей по дескрипторам - метод SIFT, аффинная адаптация.
- Задачи оценки параметров геометрических моделей.
- DLT-метод для линий и преобразований.
- Робастные алгоритмы - М-оценки, стохастические алгоритмы, схемы голосования. Применение для построения панорам и поиска объектов.
3.1. Категоризация изображений
- Понятие категории.
- Распознавание категорий человеком.
- Общая схема категоризации изображений. Признаки. Гистограммы признаков, пирамиды. Визуальные слова и "мешок слов".
- Задача выделения категорий объектов на изображении. Скользящее окно. Применение "мешка слов" для выделения объектов.
- Метод HOG + SVM, размножение выборки и бутстраппинг.
- Методы на основе слабых классификаторов. Алгоритм поиска лиц Viola-Jones, признаки Хоара, интегральные изображения.
- Пути развития детекторов и современное состояние
- Варианты постановки задачи - поиск полудубликатов, поиск похожих, поиск по классам. Поиск на основе цветовых гистограмм (QBIC).
- Дескриптор GIST.
- Поиск полудубликатов - приближенные методы ближайшего соседа, инвертированный индекс, хэширование.
- Поиск на основе "Мешка слов", обратный индекс, использование пространственной информации для повышения точности.
4.1. Интернет-зрение
- Большие коллекции изображений и методы их составления.
- Дополнение изображений (Image completion) с помощью больших коллекций. Классификация изображений с помощью больших коллекций.
- Фотоколлажи. Shape context. Объектные фильтры.
- Введение в обработку и анализ видео.
- Понятие оптического потока. Глобальные и локальные (Lucas-Kanade) методы оценки оптического потока.
- Вычитание фона (BS - background subtraction). Алгоритмы BS: одна гауссиана, смесь гауссиан, поблочные методы, объединение локальных и глобальных цветовых моделей.
- Задача сопровождения объектов в видео, постановки, критерии качества и проблемы.
- Сопровождение одного объекта - сопоставления шаблонов, на основе Chamfer-метрики, MeanShift, Flock of features, комбинации методов.
- Сопровождение множества объектов - сопровождение через сопоставление.
- Распознавание событий в видео, тестовые базы, автоматическая разметка видео. Методы распознавания - дескрипторы на основе оптического потока, локальные особенности, классификация, прицеливание.
- Алгоритмы дополненной реальности, требования к ним.
- Решающий лес как один из базовых методов для дополненной реальности.
- Регистрация изображений в реальном времени.
- Система Kinect и оценка позы человека в реальном времени.
Модуль 1
- Intro to NLP
- Lecture: Word embeddings
- Distributional semantics. Count-based (pre-neural) methods. Word2Vec: learn vectors. GloVe: count, then learn. N-gram (collocations) RusVectores. t-SNE.
- Practical: word2vec, fasttext
- Lecture: RNN + CNN, Text classification
- Neural Language Models: Recurrent Models, Convolutional Models. Text classification (architectures)
- Practical: Classification with LSTM, CNN
- Lecture: Language modelling and NER
- Task description, methods (Markov Model, RNNs), evaluation (perplexity), Sequence Labelling (NER, pos-tagging, chunking etc.) N-gram language models, HMM, MEMM, CRF
- Practical: NER
- Lecture: Machine translation, Seq2seq, Attention, Transformers
- Basics: Encoder-Decoder framework, Inference (e.g., beam search), Eval (bleu). Attention: general, score functions, models. Bahdanau and Luong models. Transformer: self-attention, masked self-attention, multi-head attention.
- Lecture: Transfer learning in NLP
- Bertology (BERT, GPT-s, t5, etc.), Subword Segmentation (BPE), Evaluation of big LMs.
- Practical: transformers models for classification task,
- Practical: Transfer learning
- Lecture & Practical: How to train big models? Part1. Distributed training, Part2. RuGPT3 Training
- Training Multi-Billion Parameter Language Models. Model Parallelism. Data Parallelism.
- Practical: DDP example
- Lecture: Syntax parsing
- Practical: Syntax
- Lecture: Question answering
- Practical: seminar QA, seminar chatbots
- Squads (one-hop, multi-hop), architectures, retrieval and search, chat-bots
- Lecture: Summarization, simplification, paraphrasing
- Practical: summarization seminar
- Lecture: Knowledge Distillation in NLP
Модуль 1 - Методы оптимизации и линейные модели
- Машинное обучение с учителем на больших данных.
- Закон Ципфа.
- Тематическое моделирование.
- Метод стохастического градиента.
- Постановка задачи.
- Оптимизации обучения на больших данных: градиентный спуск, стохастический градиент.
- Признаки.
- Пространства признаков, веса признаков, нормализация признаков.
- Генерация и хеширование признаков.
- Онлайн обучение линейных моделей.
- Метод стохастического градиента: выбор функции потерь.
- Оценка качества метода стохастического градиента.
- Алгоритм Бутстрап.
- Хеширование, чувствительное к расстоянию (LSH).
- Меры сходства: расстояние Жаккара, Хемминга, косинусное расстояние, Евклидово расстояние.
- Оптимизация и тестирование гиперпараметров.
- Симплекс-метод.
- Графы, их виды.
- Стохастический граф.
- Представление графа: матрицы смежности, инцидентности, достижимости.
- Списки смежности.
- Алгоритмы перевода из одного представления в другое.
- Социальный граф.
- Задача поиска общих друзей в социальном графе.
- Язык DSL.
- Граф пользовательских предпочтений.
- Использование подхода BigData в анализе графов.
- Постановка ранжирования.
- Основные подходы к решению задачи ранжирования.
- Метрики измерения точности ранжирования.
- Кликовые модели.
- Тематическое моделирование и его связь с ранжированием.
- Проблемы тематического моделирования при больших данных.
- AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM.
- Архитектура библиотеки BigARTM.
- Online LDA и его применение в Vowpal Wabbit.
- Рекомендательные системы, постановка задачи предсказания / рекомендации.
- Классификация рекомендательных систем.
- Неперсонализированные рекомендательные системы, content-based рекомендательные системы.
- Задачи коллаборативной фильтрации, транзакционные данные и матрица субъекты—объекты.
- Корреляционные методы, методы сходства (neighbourhood) - user-based, item-based.
- Латентные методы на основе матричных разложений.
- Методы ALS и iALS.
- Современные рекомендательные системы: рекомендательные системы, основанные на учете контекста (context aware); аспектные рекомендательные системы (aspect-aware), рекомендательные системы на основе тензорных разложений.
Зарегистрируйтесь
, чтобы посмотреть скрытый авторский контент.