Robot
Складчик
- #1
[Слёрм] Data-инженер [Анастасия Сафонова]
- Ссылка на картинку
Кому подойдёт курс:
1. Системным и сетевым администраторам
Научитесь проектировать, разрабатывать и поддерживать архитектуру для работы с большими данными. Освоите основные инструменты Data-инженеров и сможете внедрять принятые решения в production.
2. Backend-разработчикам
Изучите все этапы работы с данными. Научитесь собирать информацию из разных источников и выполнять интересные задачи. Сможете увеличить доход и повысить свою ценность для компании.
Пройдя курс, вы:
1. Научитесь проектировать архитектуру хранилищ данных под разные задачи и условия. Узнаете основные принципы построения систем потоковой аналитики. Получите представление о существующих облачных и on-premise решениях.
2. Научитесь проводить обследование перед стартом нового проекта и определять «информационную зрелость» заказчика. Поймёте, что нужно знать перед проектированием архитектуры хранилища данных в новом проекте.
3. Получите базовые знания Apache Spark для Data-инженера. Научитесь использовать DataFrame API и Spark Streaming API для исследования, извлечения, преобразования и хранения данных.
4. Научитесь создавать пайплайны обработки данных с использованием opensource ETL-инструментов. Научитесь работать с основными инструментами Data-инженера.
5. Узнаете принцип работы технологий, упрощающих жизнь DE при работе с RDBMS. Научитесь оптимизировать запросы под нужды дата-инженера.
6. Узнаете принципы работы и применимость разных видов NOSQL БД. Научитесь работать с колоночными БД на примере HDFS.
7. Научитесь проектировать хранилища данных в условиях изменчивости первичных данных.
8. Научитесь оценивать качество данных и узнаете способы устранения проблем с data quality.
9. Научитесь работать с базовыми инструментами получения данных от граничных устройств в облако.
Содержание:
Модуль 1 - Инженерия данных
Научим проектировать архитектуру хранилищ данных, поможем освоить инструменты Data-инженера, расскажем о принципах подготовки проекта к запуску и не только.
Урок: Экосистема и роль инженерии данных
- Что такое инженерия данных, кто такой дата инженер. Какие проблемы решает, роль в команде, почему DSов часто недостаточно для успешного проекта. Обязанности и навыки дата инженера
- Обзор экосистемы инженерии данных: типы и структуры данных, форматы файлов, источники данных, используемые языки
- Традиционная архитектура хранилищ данных
- Облачные хранилища
- Озёра данных, витрины данных, хранилища данных - что это и чем отличаются
- Что такое ETL, ELT. Обзор ETL-инструментов. Загрузчики данных, шины обмена данными
- Реляционная модель данных
- Принципы ACID
- SQL. Оптимизация запросов для нужд data engineer'а
- Индексирование
- Партицирование, шардирование. Что это и зачем нужно
- Доступ к данным с помощью ORM
- Хранимые процедуры, триггеры
- Транзакционное логирование: что это и зачем нужно. Механизмы CDC
- Способы и инструменты исследования БД
- Колоночные хранилища
- Графовые базы данных
- Документоориентированные хранилища
- Хранилища ключ-значения
- Time-Series DB"
- Урок: Распределенные файловые системы
- Hadoop - обзор
- Технология Map-Reduce
- NiFi - знакомство и практические задачи
- Урок: Оркестраторы данных
- Airflow - знакомство и практические задачи
- Kafka - знакомство и практические задачи
- Урок: Принципы построения систем потоковой аналитики
- Батчинг, стриминг
- Что такое Spark и зачем он нужен DE
- DataFrames: Spark SQL, Reader & Writer, DataFrame & Column
- Преобразования: Aggregations, Datetime, Strings & Collections, Non-Aggregate & Na
- Functions, UDF
- Партицирование, репартицирование
- Spark Streaming
- Как провести предпроектное обследование
- Типовые вопросы для оценки «информационной зрелости» заказчика
Научим проектировать хранилища данных и оценивать data quality.
Урок: Изменчивые данные и как с этим жить
- Поддержка консистентности данных. Жизненный цикл данных
- Типы проблем КД, их причины и способы решения
- О том, как данные врут и что с этим делать
Научим организовывать передачу данных от устройств в облако.
Урок: Data Engineering и IoT
- MQTT и другие IoT-протоколы передачи данных от граничного устройства в облако
- Инструменты сбора данных от IoT-устройств: RabbitMQ, mosquitto
Зарегистрируйтесь
, чтобы посмотреть скрытый авторский контент.