Айлин
Организатор
- #1
[Skill branch] Data Science 2021 [Никита Варганов, Екатерина Ляпина]
- Ссылка на картинку
Научитесь готовить данные для анализа и обучать ML модели.
Научитесь извлекать полезные данные из любых источников, анализировать поведение потребителей вашего продукта, быстро монетизировать полученную информацию с максимальной выгодой – станьте специалистом в области Data Science!
Вы научитесь:
1. Теория и практика
За время обучения вы получите серьезную теоретическую и практическую подготовку.
2. Реальные задачи
Основной упор делается на практическое применение Data Science в бизнесе. Пройдете практику под руководством опытных специалистов.
3. Прикладные задачи
Вы детально освоите особенности применения Data Science в банковской сфере на примере работы банковской сферы и не только.
4. Портфолио
Сформируете свое портфолио по специальности Data Science, характеризующее вас как компетентного специалиста.
Что будете иметь:
1. Постановка задачи и получение данных
2. Python и использование библиотек для анализа данных и машинного обучения
3. Выбор и обучение алгоритма машинного обучения
4. Выбор и анализ метрики качества алгоритма машинного обучения
5. Подготовка данных для алгоритмов машинного обучения
6. Обнаружение и визуализация данных для понимания их сущности
7. Настройка гиперпараметров модели
8. Поиск возможностей для улучшения качества модели
9. Проверка модели на реальных данных
Научитесь извлекать полезные данные из любых источников, анализировать поведение потребителей вашего продукта, быстро монетизировать полученную информацию с максимальной выгодой – станьте специалистом в области Data Science!
Вы научитесь:
1. Теория и практика
За время обучения вы получите серьезную теоретическую и практическую подготовку.
2. Реальные задачи
Основной упор делается на практическое применение Data Science в бизнесе. Пройдете практику под руководством опытных специалистов.
3. Прикладные задачи
Вы детально освоите особенности применения Data Science в банковской сфере на примере работы банковской сферы и не только.
4. Портфолио
Сформируете свое портфолио по специальности Data Science, характеризующее вас как компетентного специалиста.
Что будете иметь:
1. Постановка задачи и получение данных
2. Python и использование библиотек для анализа данных и машинного обучения
3. Выбор и обучение алгоритма машинного обучения
4. Выбор и анализ метрики качества алгоритма машинного обучения
5. Подготовка данных для алгоритмов машинного обучения
6. Обнаружение и визуализация данных для понимания их сущности
7. Настройка гиперпараметров модели
8. Поиск возможностей для улучшения качества модели
9. Проверка модели на реальных данных
Содержание:
Модуль 1 - Введение в машинное обучение
Модуль 2 - Основы Python
- Что такое машинное обучение?
- Для чего используется машинное обучение?
- Какие типы задач можно решать с помощью машинного обучения?
- Основные проблемы машинного обучения
- Почему будем использовать python?
- Обзор основных инструментов и библиотек (Jupyter Notebook, sklearn, NumPy, SciPy, matplotlib, pandas).
Практика
- типы данных
- ссылки на объекты
- коллекции данных
- логические операции
- инструкции управления потоком выполнения
- арифметические операторы
- ввод / вывод
- создание и вызов функций
Модуль 3 - Математика, необходимая в DS / ML
- Работа с объектами в Python, написание функций для работы с данными
Практика
- функция
- производная, частная производная, градиент функции
- теория вероятности: основные определения
- определение вероятности, вычисление вероятностей сложных событий
- распределение вероятностей, независимые и зависимые переменные
- генеральные совокупности и выборки
- центральная предельная теорема
- меры центральной тенденции, меры разброса
- выбросы
Модуль 4 - Управление данными и их интерпретация
- реализация указанных математических сущностей на Python
Практика
- введение в массивы библиотеки NumPy
- выполнение вычислений над массивами NumPy
- сравнения, макси и булева логика в NumPy
- сортировка массивов NumPy
- введение в библиотеку pandas
- операции над данными в библиотеке pandas
- объединение наборов данных: конкатенация, слияние и соединение
- агрегирование и группировка в pandas
- сводные таблицы в pandas
- векторизованные операции и методы повышения производительности pandas
- визуализация данных с помощью matplotlib
- линейные графики и диаграммы рассеяния в matplotlib
- графики плотности, гистограммы в matplotlib
- настройка легенды на графикам, тексты и поясняющие надписи
- множественные графики
Модуль 5 - Линейные модели
- векторные вычисление с помощью NumPy, операции над векторами и матрицами, анализ данных с помощью pandas, вычисление основных статистик, фильтрация и отбор данных с помощью pandas, визуализация данных с помощью matplotlib / seaborn
Практика
- измерение ошибки в задачах регрессии
- обучение линейной регрессии
- градиентный спуск и модификация градиентного спуска
- интерпретация коэффициентов линейной регрессии
- подготовка данных для линейной модели
- оценка качества моделей
- регуляризация линейной модели и гиперпараметры
Модуль 6 - Логистическая регрессия
- реализация метрик качества для задачи регрессии, анализ их слабых и сильных сторон, реализация классического решения для модели линейной регрессии, реализация алгоритма градиентного спуска, визуализация траекторий градиентного спуска и стохастического градиентного спуска, сравнение скорости схождения алгоритма градиентного спуска и стохастического градиентного спуска, реализация L1, L2 регуляризации для линейной модели. Опционально: реализация более сложных методов оптимизации для поиска решения линейной регрессии.
Практика
- измерение ошибки в задачах бинарной классификации
- оценивание вероятностей
- переобучение, кривые обучения, кривые валидации
- интерпретация коэффициентов логистической регрессии
- границы решения
Модуль 7 - Решающие деревья
- реализация метрик качества для задачи классификации, анализ их слабых и сильных сторон, реализация модели логистической регрессии, построение и анализ кривых обучения и валидационных кривых. Применение модели логистической регрессии для реальных данных, оценка качества модели. Реализация собственных элементов пайплайнов, объединение элементов предобработки данных и обучения модели в единый пайплайн.
Практика
- обучение и визуализация дерева принятия решений
- применение дерева для получения прогнозов
- оценивание вероятностей классов
- оценивание непрерывной величины
- алгоритм обучения CART
- вычислительная сложность деревьев решений
- выбор критериев разбиения
- гиперпараметры, регуляризация, неустойчивость деревьев решений
Опционально
- обучение решающих деревьев для задачи классификации и регрессии, сравнение критериев информативностей деревьев решений, сравнение критериев останова деревьев решений, визуализация плоскостей решения при различных значениях гиперпараметров деревьев решений, сравнение способов регуляризации деревьев решений на практике. Сравнение решающих деревьев с линейными моделями, сравнение качества решения и устойчивости решения.
Модуль 8 - Бэггинг, случайный лес
- самостоятельная реализация модели решающего дерева для задачи классификации и регрессии.
Практика
- разложение ошибки на смещение и дисперсию
- бутстрап, бэггинг, out-of-bag ошибка
- метод случайных подпространств
- случайный лес
- экстремально случайные деревья
- работа с текстовыми данными
- оценка важности признаков
Опционально
- самостоятельная реализация модели бэггинга с использованием решающих деревьев и линейных моделей. Векторизация текстовых данных, использования TF-IDF для текстовых данных. Использование лемматизации и стемминга для улучшения качества текстовых данных. Использование модели случайного леса и линейных моделей для работы с текстовыми данными. Использование методов для оценки важности признаков для модели случайного леса.
Модуль 9 - Градиентный бустинг
- самостоятельная реализация модели случайного леса для задачи классификации и регрессии.
Практика
- бустинг как направленная композиция алгоритмов
- AdaBoost
- XGBoost
- LightGBM
- CatBoost
Модуль 10 - Важность признаков и методы снижения размерности
- сравнение градиетного бустинга и случайного леса, анализ смещения и дисперсии модели градиетного бустинга, Сравнение реализация алгоритма градиентного бустинга (AdaBoost, XGBoost, LightGBM, CatBoost) на задачах бинарной классификации и регрессии.
Практика
- Встроенные методы оценки важности признаков, + / -
- Оценка важности признаков на основе перестановок
- SHAP для оценки важности признаков и интерпретации blackbox-моделей
- Проблема проклятия размерности
- PCA для снижения размерности
- Анализ главных компонент
Модуль 11 - Обучение без учителя (кластеризация)
- использование встроенных методов оценки важности признаков для линейных моделей, решающих деревьев, случайного леса и градиентного бустинга, анализ их плюсов и минусов. Использование универсальных методов оценки важности, анализ их преимуществ перед встроенными методами оценки важности признаков, отбора признаков. Использование SHAP, PCA для отбора признаков.
Модуль 12 - Основы А-Б тестирования
- опциональная лекция
Практика
- распределение вероятностей
- независимые и зависимые переменные
- проверка гипотез
- доверительные интервалы
- p-value, z-статистика
- проверка гипотез с помощью t - критерия
- проверка гипотез для долей
Модуль 13 - Полный проект машинного обучения (основные этапы + демонстрация)
- моделирование распределения вероятностей с помощью python, проверка одновыборочных гипотез, двухвыбороных гипотез для независимых выборок и двухвыборочных гипотез для зависимых выборок с помощью python.
- работа с реальными данными
- постановка задачи
- получение данных
- обнаружение и визуализация данных для понимания их сущности
- подготовка данных для алгоритмов машинного обучения
- выбор и обучение модели
- настройка гиперпараметров модели
- анализ ошибок / поиск возможностей для улучшения качества модели
- проверка модели на реальных данных
- запуск и сопровождение модели
Зарегистрируйтесь
, чтобы посмотреть скрытый авторский контент.