Robot
Складчик
- #1
[Udemy] Продвинутый ИИ: глубокое обучение с подкреплением в Python [Lazy Programmer Team, Lazy Programmer Inc]
- Ссылка на картинку
Advanced AI: Deep Reinforcement Learning in Python
Полное руководство по освоению искусственного интеллекта с помощью глубокого обучения и нейронных сетей.
Чему вы научитесь:
Вы когда-нибудь задумывались, как на самом деле работают такие технологии искусственного интеллекта, как OpenAI ChatGPT и GPT-4? В этом курсе вы узнаете об основах этих революционных приложений.
Этот курс посвящен применению глубокого обучения и нейронных сетей в обучении с подкреплением.
Если вы посещали мой первый курс по обучению с подкреплением, то вы знаете, что обучение с подкреплением находится на переднем крае того, что мы можем сделать с помощью ИИ.
В частности, сочетание глубокого обучения с обучением с подкреплением привело к тому, что AlphaGo победил чемпиона мира в стратегической игре Go, привело к созданию самоуправляемых автомобилей и машин, которые могут играть в видеоигры на сверхчеловеческом уровне.
Обучение с подкреплением существует с 70-х годов прошлого века, но до сих пор ничего подобного не было.
Мир меняется очень быстро. Штат Калифорния меняет свои правила, чтобы компании, производящие самоуправляемые автомобили, могли тестировать свои машины без человека в машине для контроля. Мы увидели, что обучение с подкреплением - это совершенно другой вид машинного обучения, чем обучение с подкреплением и обучение без подкрепления.
Алгоритмы контролируемого и неконтролируемого машинного обучения предназначены для анализа и прогнозирования данных, в то время как обучение с подкреплением - это обучение агента взаимодействию с окружающей средой и максимизации его вознаграждения. В отличие от алгоритмов контролируемого и неконтролируемого обучения, у агентов обучения с подкреплением есть стимул - они хотят достичь цели.
Это настолько интересная перспектива, что в ретроспективе контролируемое/неконтролируемое машинное обучение и «наука о данных» могут показаться скучными. Зачем обучать нейронную сеть изучать данные в базе данных, если можно обучить ее взаимодействовать с реальным миром?
Глубокое обучение с подкреплением и искусственный интеллект обладают большим потенциалом, но они также несут в себе огромный риск. Билл Гейтс и Элон Маск сделали публичные заявления о некоторых рисках, которые ИИ представляет для экономической стабильности и даже нашего существования. Как мы узнали на моем первом курсе по обучению с подкреплением, один из главных принципов обучения агентов обучения с подкреплением заключается в том, что при обучении ИИ могут возникнуть непредвиденные последствия.
ИИ думают не так, как люди, поэтому они придумывают новые и неинтуитивные решения для достижения своих целей, зачастую удивляя экспертов в данной области - людей, которые лучше всех разбираются в том, что они делают.
OpenAI - это некоммерческая организация, основанная Элоном Маском, Сэмом Альтманом (Y Combinator) и другими людьми для того, чтобы прогресс ИИ приносил пользу, а не вред.
Частью мотивации OpenAI является экзистенциальный риск, который ИИ представляет для людей. Они считают, что открытое сотрудничество - один из ключей к снижению этого риска.
Одна из главных особенностей OpenAI заключается в том, что у них есть платформа под названием OpenAI Gym, которую мы будем активно использовать в этом курсе.
Она позволяет любому человеку в любой точке мира тренировать агентов обучения с подкреплением в стандартных средах.
В этом курсе мы будем развивать то, что сделали в прошлом курсе, и работать с более сложными средами, в частности, с теми, которые предоставляет OpenAI Gym:
Мы расширим наши знания об обучении с помощью алгоритма TD Lambda, рассмотрим особый тип нейронных сетей, называемый RBF-сетью, рассмотрим градиентный метод политики и закончим курс рассмотрением Deep Q-Learning (DQN) и A3C (Asynchronous Advantage Actor-Critic).
Подробная информация:
Продолжительность: 10.5 ч.
Содержание курса: 12 разделов • 80 лекций
Язык: Английский + Английские субтитры + Русские субтитры + Русские аудио дорожки машинный перевод с синхронизацией таймингов.
Полное руководство по освоению искусственного интеллекта с помощью глубокого обучения и нейронных сетей.
Чему вы научитесь:
- Создание различных агентов глубокого обучения (включая DQN и A3C)
- Применяйте различные передовые алгоритмы обучения с подкреплением для решения любых задач
- Q-Learning с глубокими нейронными сетями
- Градиентные методы политики с нейронными сетями
- Обучение с подкреплением с помощью RBF-сетей
- Использование конволюционных нейронных сетей с глубоким Q-обучением
- Поймите важные основы OpenAI ChatGPT, GPT-4
Вы когда-нибудь задумывались, как на самом деле работают такие технологии искусственного интеллекта, как OpenAI ChatGPT и GPT-4? В этом курсе вы узнаете об основах этих революционных приложений.
Этот курс посвящен применению глубокого обучения и нейронных сетей в обучении с подкреплением.
Если вы посещали мой первый курс по обучению с подкреплением, то вы знаете, что обучение с подкреплением находится на переднем крае того, что мы можем сделать с помощью ИИ.
В частности, сочетание глубокого обучения с обучением с подкреплением привело к тому, что AlphaGo победил чемпиона мира в стратегической игре Go, привело к созданию самоуправляемых автомобилей и машин, которые могут играть в видеоигры на сверхчеловеческом уровне.
Обучение с подкреплением существует с 70-х годов прошлого века, но до сих пор ничего подобного не было.
Мир меняется очень быстро. Штат Калифорния меняет свои правила, чтобы компании, производящие самоуправляемые автомобили, могли тестировать свои машины без человека в машине для контроля. Мы увидели, что обучение с подкреплением - это совершенно другой вид машинного обучения, чем обучение с подкреплением и обучение без подкрепления.
Алгоритмы контролируемого и неконтролируемого машинного обучения предназначены для анализа и прогнозирования данных, в то время как обучение с подкреплением - это обучение агента взаимодействию с окружающей средой и максимизации его вознаграждения. В отличие от алгоритмов контролируемого и неконтролируемого обучения, у агентов обучения с подкреплением есть стимул - они хотят достичь цели.
Это настолько интересная перспектива, что в ретроспективе контролируемое/неконтролируемое машинное обучение и «наука о данных» могут показаться скучными. Зачем обучать нейронную сеть изучать данные в базе данных, если можно обучить ее взаимодействовать с реальным миром?
Глубокое обучение с подкреплением и искусственный интеллект обладают большим потенциалом, но они также несут в себе огромный риск. Билл Гейтс и Элон Маск сделали публичные заявления о некоторых рисках, которые ИИ представляет для экономической стабильности и даже нашего существования. Как мы узнали на моем первом курсе по обучению с подкреплением, один из главных принципов обучения агентов обучения с подкреплением заключается в том, что при обучении ИИ могут возникнуть непредвиденные последствия.
ИИ думают не так, как люди, поэтому они придумывают новые и неинтуитивные решения для достижения своих целей, зачастую удивляя экспертов в данной области - людей, которые лучше всех разбираются в том, что они делают.
OpenAI - это некоммерческая организация, основанная Элоном Маском, Сэмом Альтманом (Y Combinator) и другими людьми для того, чтобы прогресс ИИ приносил пользу, а не вред.
Частью мотивации OpenAI является экзистенциальный риск, который ИИ представляет для людей. Они считают, что открытое сотрудничество - один из ключей к снижению этого риска.
Одна из главных особенностей OpenAI заключается в том, что у них есть платформа под названием OpenAI Gym, которую мы будем активно использовать в этом курсе.
Она позволяет любому человеку в любой точке мира тренировать агентов обучения с подкреплением в стандартных средах.
В этом курсе мы будем развивать то, что сделали в прошлом курсе, и работать с более сложными средами, в частности, с теми, которые предоставляет OpenAI Gym:
- CartPole
- Mountain Car
- Atari games
Мы расширим наши знания об обучении с помощью алгоритма TD Lambda, рассмотрим особый тип нейронных сетей, называемый RBF-сетью, рассмотрим градиентный метод политики и закончим курс рассмотрением Deep Q-Learning (DQN) и A3C (Asynchronous Advantage Actor-Critic).
Подробная информация:
Продолжительность: 10.5 ч.
Содержание курса: 12 разделов • 80 лекций
Язык: Английский + Английские субтитры + Русские субтитры + Русские аудио дорожки машинный перевод с синхронизацией таймингов.
Зарегистрируйтесь
, чтобы посмотреть скрытый авторский контент.