Нейросеть научили проходить видеоигру при помощи голосовых команд

  • 2 Май, 2017

Обучение на понятном языке.

Студенты из Стэнфордского университета с помощью команд на простом английском научили нейросеть проходить одну из самых сложных игр для видеоприставки Atari 2600. Препринт исследования опубликован на сайте arXiv.org.

Компьютеру простым языком объяснили прохождение игры на Atari

Последовательности команд для получения ключа | Фото: nplus1.ru / Russell Kaplan et al / arXiv.org

В большинстве случаев при обучении искусственных нейросетей прохождению видеоигр используются алгоритмы с подкреплением — этот метод предполагает получение компьютером внешней обратной связи о своих действиях, например в виде зарабатывания очков.

В процессе тренировок система совершает произвольные действия до получения вознаграждения, после чего стремится повторить «выгодный» шаблон в будущем.

Авторы новой работы при обучении нейросети применили альтернативный подход, позволивший ей освоить одну из сложнейших видеоигр для приставки Atari 2600 — «Месть Монтесумы» (Montezuma’s Revenge), в которой герой перемещается по подземелью, собирая сокровища.

Эта игра не первый раз используется для тренировки искусственного интеллекта из-за особенностей геймплея. Дело в том, что в игре редко встречаются «награды», необходимые для успешного прохождения, такие, как ключ для открытия двери в следующую комнату, из-за чего искусственному интеллекту сложно понять, какие действия ведут к победе.

Разработчики придумали другой подход. Чтобы ускорить процесс обучения, они решили сначала научить нейросеть понимать команды, написанные естественным языком, а для обучения использовали данные в виде пар команда/скриншот действия героя. Затем авторы дали ИИ набор команд для успешного прохождения каждой комнаты в игре и дали ей попрактиковаться.

Пример последовательности команд для получения ключа (смотреть изображение выше): 1) спустись по лестнице; 2) прыгни на веревку; 3) спрыгни в правую часть комнаты; 4) спустись по лестнице; 5) пройди в левую часть комнаты; 6) поднимись по лестнице; 7) возьми ключ.

Чтобы доказать, что ИИ действительно научился понимать команды, авторы дали ему пройти комнату с набором команд вроде «поднимись по лестнице» без накопленных данных о предыдущих тренировках. Таким образом, имитировалась ситуация, при которой он видел эту комнату впервые.

Тем не менее, результаты показали, что искусственный интеллект смог правильно интерпретировать команды человека и пройти уровень. Более того, он стал игнорировать команды, если находил более оптимальную стратегию для прохождения.

Инженеры оценили эффективность их подхода с помощью OpenAI Gym – платформы для разработки и сравнения алгоритмов обучения с подкреплением. Их алгоритм набрал 3500 очков, против 2500 у самого успешного конкурента.

На данный момент только алгоритм Google DeepMind набрал больше – 6600 очков, однако его тренировка заняла в два раза больше времени. В последующем авторы статьи намерены сократить количество инструкций на естественном языке, необходимых для освоения нейросетями видеоигр, с тем чтобы сделать их более независимыми.

Подписывайтесь на Квибл в Viber и Telegram, чтобы быть в курсе самых интересных событий.

  • Последние записи

  • Больше из архива Наука и технологии