Ученые объяснили превосходство искусственного интеллекта в аркадных играх

Ученые объяснили превосходство искусственного интеллекта в аркадных играх

Стартап Гугл Deep Mind показал новые возможности ИИ. Его совокупность Deep-Q-Network смогла превзойти человека в 49 хороших не сильный играх 1980-х, не имея доступа к исходному коду игр и без изучения практики игроков-людей. Об методе работы совокупности рассказывается в издании Nature, а кратко о новой технологии сказал Science News.

Английскую компанию DeepMind, специализирующуюся в области ИИ, в 2014 году купил Гугл.

Согласно данным СМИ сумма сделки составила около 400 миллионов долларов.

По окончании вхождения в состав американской корпорации один из основателей стартапа Демис Хассабис (Demis Hassabis) вынудил компьютер самостоятельно обучаться опыту игры — а также открывать стратегии и эффективные ходы, о которых не знали кроме того люди.

Совокупность компьютерного самообучения стала называться Deep-Q-Network (DQN).

В ней употребляются две разные стратегии обучения.

Во-первых, это глубинная нейронная сеть — система восприятия, принцип работы которой напоминает зрение животных: она делает ходы и подмечает, как изменяются пиксели на экране. «Q» в заглавии свидетельствует Q-learning: математический аналог обучения с подкреплением (либо поощрением), благодаря которому животные и люди осваивают новые навыки: каждое новое действенное воздействие вознаграждается. При DQN призом являются очки в игре: пробуя разные действия, совокупность запоминает те комбинации, каковые приносят максимум очков.

Исследователи дали DQN порезвиться с 49 хорошими аркадными играми на платформе Atari 2600. Эти игры, согласно точки зрения Хассабиса, являются золотую середину с позиций сложности игрового процесса.

DQN были предоставлены очень ограниченные ресурсы: 14 дней на вычислительные мощности и каждую игру одного-единственного ПК.

Эффективность совокупности была далеко не очевидна: ИИ раньше постоянно проигрывал человеку в играх наподобие Breakout либо Space Invaders, где для получения рекордного счета нужно искать сложные стратегии. Но в итоге DQN обыграла живых специалистов в 60 процентах игр: она собрала на 20–30 процентов больше очков в Space Invaders и Pong, а в Breakout и Video Pinball — в 200 раза больше. Следующим этапом, по словам Хассабиса, станет трансфер знаний: перенос навыков из одной игры в другую (к примеру, во вторую игру с летающими шариками совокупность сможет играться стремительнее, чем в первую).

Согласно точки зрения специалистов,

совокупность DQN имеет все шансы применяеться в рекламной стратегии Гугл. Пиксели аркадных игр являются аналогом бессчётных данных, каковые поисковик собирает об отдельных пользователях, а очки — аналогом прибыли от рекламы. Обучение с подкреплением понадобится для улучшения качества объявлений: чем чаще на них кликают, тем больше очков приобретает совокупность.

Тот факт, что DQN обучается, замечая за происходящим на экране, а не обрабатывая исходный код, показывает, что Гугл она нужна для анализа изображений и видео.

УГРОЗА ИИ

Статьи, которые будут Вам интересны: