Robot
Складчик
- #1
[Специалист] Курс 20773А: Анализ больших данных [Big Data] с помощью Microsoft R. 2018 [Михаил Соколов]
- Ссылка на картинку
Этот курс предназначен для специалистов, анализирующих огромные наборы данных, а также разработчиков, использующих R в своих проектах.
Цель курса – предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.
По окончании курса Вы будете уметь:
Программа курса
Модуль 1. Сервер и клиент Microsoft R
Цель курса – предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.
По окончании курса Вы будете уметь:
- описывать работу Microsoft R;
- использовать клиента R и Server R для обработки больших данных из разных хранилищ;
- визуализировать данные с помощью графиков и схем;
- преобразовывать и очищать наборы больших данных;
- использовать способы разделения аналитических задач на параллельные задачи;
- строить и оценивать регрессионные модели, генерируемые на основе больших данных;
- создавать, оценивать и разворачивать партиционированные модели на основе больших данных;
- использовать язык R в средах SQL Server и Hadoop.
Программа курса
Модуль 1. Сервер и клиент Microsoft R
- Обзор сервера Microsoft R
- Использование клиента Microsoft R
- Функции ScaleR
- Использование клиента R в VSTR и RStudio
- Обзор функций ScaleR
- Подключение к удалённому серверу
- Источники данных ScaleR
- Чтение данных в XDF-объекте
- Обобщение данных в XDF-объекте
- Чтение локального CSV-файла и передача данных в XDF-файл
- Преобразование данных на входе
- Чтение данных из SQL Server и передача в XDF-файл
- Подведение итогов в XDF-файле
- Визуализация данных в памяти
- Визуализации больших данных
- Использование ggplot для создания многогранной диаграммы с наложением
- Использование rxlinePlot и rxHistogram
- Преобразование больших данных
- Управление наборами данных
- Преобразование больших данных
- Сортировка и слияние больших данных
- Подключение к удаленному серверу
- Использование вычислительного контекста RxLocalParallel с функцией rxExec
- Использование пакета revoPemaR
- Использование rxExec для оптимизации использования ресурсов
- Создание и применение класса PEMA
- Кластеризации больших данных
- Создание регрессионных моделей и подготовка прогнозов
- Создание кластера
- Создание регрессионной модели
- Генерация данных для составления прогнозов
- Использование модели для составления прогнозов и сравнение результатов
- Создание партиционированных моделей на основе дерева решений.
- Тестирование прогнозов партиционированных моделей
- Разбиение набора данных
- Построение моделей
- Подготовка прогноза и тестирование результатов
- Сравнение результатов
- Использование R в SQL Server
- Использование Map/Reduce в Hadoop
- Использование Hadoop Spark
- Создание модели и прогнозирования результатов в SQL Server
- Анализ и вывод результата с помощью Map/Reduce в Hadoop
- Интеграция скрипта sparklyr в рабочий процесс ScaleR
Зарегистрируйтесь
, чтобы посмотреть скрытый авторский контент.