или войти через:
Ваша корзина пока пуста
favorite_border
Доступно только зарегистрированным пользователям

Метод альтер-эго для обучения роботов из университета Карнеги-Меллона (+видео)

schedule 16.06.2017 в 07:20 link CMU захват США обучение роботов
Исследователи из университета Карнеги-Меллона и Google решили объединить теорию игр и глубокого обучения, чтобы лучше понять способности захвата и более быстрого обучения роботов. Их идея заключается в том, чтобы в учебном процессе ввести противника – «второе я» робота, который будет прилагать все усилия в попытке сделать захват, - сообщает Robotics.ua.

Обучение роботов манипулированию различными объектами является чрезвычайно трудоемким процессом, и очень скучным. Поэтому робототехники используют в этих целях стратегии ИИ, такие как самоконтролируемое обучение, вместо того, чтобы позволить роботу постепенно определять, как воспринимать вещи, пробуя несколько разных техник снова и снова. Даже с большим количеством роботов это занимает много времени, и, хотя вы можете в конце концов получить очень хорошую обобщенную концепцию захвата, в этой структуре нет довольно хорошего представления о том, что роботы «понимают» свои действия.

Проблема в том, что большую часть времени эти методы используют захваты двоичного типа с очень простыми датчиками. Но захват в реальном мире не работает точно так, как это делают большинство людей, просто потому, что можно что-то поднять и не уронить, и это не обязательно означает, что способ, который вы используете – лучший. А неустойчивые, едва функциональные захваты означают, что падение объекта значительно более вероятно, особенно если происходит что-то непредвиденное за пределами робототехнических лабораторий.

Принцип захвата из CMU

Концепция состязательного захвата из CMU проста: все дело в попытке понять что-то, в то время как что-то другое затрудняет это. Исследователи – Леррел Пинто, Джеймс Дэвидсон и Абхинав Гупта, которые на прошлой неделе представили свою работу на конференции ICRA 2017, сформулировали свой состязательный подход как работа двух игроков (популярная техника из теории игр). В своей модели один игрок представляет собой сверточную нейронную сеть, которая пытается преуспеть в захвате, в то время как другой пытается сорвать первую задачу.

Такие вещи, как гравитация, инерция и трение, являются основными противниками, с которыми робот должен сталкиваться все время. Роботов можно запрограммировать с помощью состязательных альтер-эго (второе я), чтобы они могли вмешиваться в процессы друг друга, чтобы добиться успеха.

Если противник одержал успех, это означает, что захват не был хорошим, и программа узнает об этом провале. В то же время, программа противников учится на своем успехе, и в итоге вы получаете своего рода эскалацию гонки вооружений, которая позволяет роботам все лучше и лучше выполнять свою работу. И поэтому это исследование является перспективным для реальных приложений. Чтобы роботы были полезны, им нужно будет работать в средах, где им постоянно бросают вызов.

Читайте также: В OpenAI обучают роботов через виртуальную реальность. 

Более выгодная стратегия

По информации robotics.ua, исследователи продемонстрировали, что их состязательная стратегия может ускорить процесс обучения и привести к более надежной системе, чем подход, который не полагается на противника. Они также показали, что это лучше, чем просто пытаться совершать много дополнительных захватов без противника.

После трех тренировок скорость схватывания улучшается с 43 до 58 процентов. Обратите внимание, что базовый метод, который не выполняет состязательную работу, имеет коэффициент захвата всего 47 процентов. Это ясно указывает на то, что дополнительный контроль со стороны состязательного агента значительно более полезен, чем просто сбор данных. Интересен тот факт, что примеры с противниками приводят к скорости захвата 52%. Это наглядно показывает, что в случае использования нескольких роботов обучение с помощью состязательности является более выгодной стратегией.



Общим результатом является значительное улучшение по сравнению с базовым уровнем в захвате новых объектов: увеличение общего коэффициента успешного захвата до 82 процентов (по сравнению с 68 процентами, если не используется состязательное обучение). Часть трюка здесь делает противника полезным, выбирая поведение, которое будет сложным (но не невозможным) для робота с захватом. Вы можете сделать это, наблюдая за тем, как робот терпит неудачу, а затем программирует противника, чтобы нацелиться на этот режим отказа. В зависимости от того, какие вещи вы хотите понять, и о ситуациях, которые вы хотите преодолеть, можно использовать этот метод для более быстрого обучения.

Смотрите также: В CMU разработали трехпалую роботизированную руку (+видео). 

Видео

Комментарии: