Искусственный интеллект, созданный разработчиками из Google DeepMind, научился определять характеристики объектов в виртуальном мире — в частности, их вес и количество. Чтобы понять, чем отличаются одни предметы от других, компьютеру пришлось вступить в непосредственное взаимодействие с ними. Статья исследователей, рассказывающая о процессе обучения системы, выложена на сервере препринтов ArXiv.
Последние достижения в области машинного обучения позволяют искусственному интеллекту соревноваться с человеком в самых различных областях: например, в игре в Го или в распознавании устной речи. Однако, когда речь идет о физическом контакте с окружающим миром и понимании свойств объектов, компьютеры все еще значительно уступают людям. Так, роботу, которым управляет нейросеть, необходимо два часа только для того, чтобы научиться перемещать манипулятор к дверной ручке. Поэтому разработчики активно совершенствуют алгоритмы, которые в будущем позволят машинам лучше взаимодействовать с внешним миром.
Авторы новой работы создали систему искусственного интеллекта на базе LSTM-нейросети, которая научилась определять вес и количество находящихся перед ней объектов. Эта нейросеть представляет собой подвид рекуррентных нейросетей, для которых характерно наличие обратной связи (подробнее о LSTM и рекуррентных нейросетях вы можете прочитать в нашем материале). Для ее обучения исследователи создали два разных виртуальных мира, в которых компьютер мог взаимодействовать с окружающими его предметами.
В первом мире перед искусственным интеллектом (ИИ) находилось четыре одинаковых по размеру кубика, масса которых определялась случайным образом и менялась каждый раз, когда эксперимент начинался заново. ИИ мог двигать кубики по вертикали, прикладывая к ним определенную силу (разработчики не снабжали его виртуальным манипулятором, он взаимодействовал с предметами «напрямую»). Главная задача компьютера заключалась в том, чтобы научиться находить самый тяжелый кубик. Если он успешно справлялся с заданием, то получал вознаграждение, если нет — штраф. После многократного повторения эксперимента ИИ «понял», что для того, чтобы правильно найти самый тяжелый кубик, необходимо предварительно поднять все кубики, и только потом давать ответ.
Во втором виртуальном мире перед ИИ лежали пять кубиков, из которых была построена башня. Часть кубиков стояли друг на друге, создавая единый блок, в то время как другие кубики лежали отдельно. Искусственный интеллект должен был определить, сколько перед ним находится предметов, также взаимодействуя с ними и получая в зависимости от своего ответа положительную или отрицательную обратную связь от окружающей среды. Со временем компьютер выбрал наилучшую стратегию определения правильного ответа: он стал разрушать башню и только потом оценивать количество всех кубиков.
Такой метод называется обучением с подкреплением. Он подразумевает, что испытуемая система находится в некоторой среде (в данном случае в виртуальном мире), о которой она не имеет сведений, но в которой может производить определенный набор действий. Действия переводят среду в новое состояние, и система получает от нее некоторое вознаграждение или штраф. На основе постоянного отклика испытуемая система совершенствует свою работу — подобный метод используется для обучения роботов или игровых систем искусственного интеллекта.
Исследователи не говорят о практическом применении созданной ими системы, однако предполагают, что в будущем она может быть использована для роботов, которым, например, будет необходимо перемещаться по неровным поверхностям. Кроме того, система может пригодиться роботам-помощникам, которым придется взаимодействовать с окружающим миром — например, кухонным роботам или роботам-космонавтам.
Недавно специалистам из Google удалось обучить роботов зрительно-моторной координации движений при захвате реальных предметов. Для этого они научили сверточную нейронную сеть предсказывать вероятность успешного захвата, основываясь на изображениях камеры независимо от ее калибровки и исходного положения робота.
Иллюстрация к статье:
Обсуждение