Ученые объяснили превосходство искусственного интеллекта в аркадных играх
Стартап Гугл Deep Mind показал новые возможности ИИ. Его совокупность Deep-Q-Network смогла превзойти человека в 49 хороших не сильный играх 1980-х, не имея доступа к исходному коду игр и без изучения практики игроков-людей. Об методе работы совокупности рассказывается в издании Nature, а кратко о новой технологии сказал Science News.
Английскую компанию DeepMind, специализирующуюся в области ИИ, в 2014 году купил Гугл.
Согласно данным СМИ сумма сделки составила около 400 миллионов долларов.
По окончании вхождения в состав американской корпорации один из основателей стартапа Демис Хассабис (Demis Hassabis) вынудил компьютер самостоятельно обучаться опыту игры — а также открывать стратегии и эффективные ходы, о которых не знали кроме того люди.
Совокупность компьютерного самообучения стала называться Deep-Q-Network (DQN).
В ней употребляются две разные стратегии обучения.
Во-первых, это глубинная нейронная сеть — система восприятия, принцип работы которой напоминает зрение животных: она делает ходы и подмечает, как изменяются пиксели на экране. «Q» в заглавии свидетельствует Q-learning: математический аналог обучения с подкреплением (либо поощрением), благодаря которому животные и люди осваивают новые навыки: каждое новое действенное воздействие вознаграждается. При DQN призом являются очки в игре: пробуя разные действия, совокупность запоминает те комбинации, каковые приносят максимум очков.
Исследователи дали DQN порезвиться с 49 хорошими аркадными играми на платформе Atari 2600. Эти игры, согласно точки зрения Хассабиса, являются золотую середину с позиций сложности игрового процесса.
DQN были предоставлены очень ограниченные ресурсы: 14 дней на вычислительные мощности и каждую игру одного-единственного ПК.
Эффективность совокупности была далеко не очевидна: ИИ раньше постоянно проигрывал человеку в играх наподобие Breakout либо Space Invaders, где для получения рекордного счета нужно искать сложные стратегии. Но в итоге DQN обыграла живых специалистов в 60 процентах игр: она собрала на 20–30 процентов больше очков в Space Invaders и Pong, а в Breakout и Video Pinball — в 200 раза больше. Следующим этапом, по словам Хассабиса, станет трансфер знаний: перенос навыков из одной игры в другую (к примеру, во вторую игру с летающими шариками совокупность сможет играться стремительнее, чем в первую).
Согласно точки зрения специалистов,
совокупность DQN имеет все шансы применяеться в рекламной стратегии Гугл. Пиксели аркадных игр являются аналогом бессчётных данных, каковые поисковик собирает об отдельных пользователях, а очки — аналогом прибыли от рекламы. Обучение с подкреплением понадобится для улучшения качества объявлений: чем чаще на них кликают, тем больше очков приобретает совокупность.
Тот факт, что DQN обучается, замечая за происходящим на экране, а не обрабатывая исходный код, показывает, что Гугл она нужна для анализа изображений и видео.