Агент для управления роботами под названием RoboCat способен саморазвиваться

Что бы создать робота общего назначения, необходимо наделить его способностью обучаться чему угодно. Google DeepMind опубликовала свежие данные о ходе работы по созданию и обучению своего агента RoboCat, созданного для управления роботами. Новая версия нейронной сети самостоятельно генерирует данные для собственного обучения, и результаты по истине впечатляющие. Теперь обо всем по порядку...

Агент для управления роботами

DeepMind, как и тысячи других исследователей из университетов и частных компаний пытаются создать программное обеспечение, которое позволило бы роботам самостоятельно обучатся чему либо. И не только у них есть успешные кейсы, по созданию нейронной сети для манипуляции роботом, тоесть агента. Агентами называют ИИ, задачей которых является управление каким либо роботом в реальном мире. Сходство с Агентом Смиттом, программой способной вселяться в любого обитателя Матрицы, и брать на себя управление его телом - просто совпадение.

RoboCat выполняет задачи в виртуальном и настоящем пространстве

В виртуальном пространстве, через него можно прогнать нереальное количество данных, в очень сжатые сроки, были бы вычислительные мощности. Но проблема с обучением искусственного интеллекта такого типа заключается в том, что если он берется управлять физическими обьектами в реальном мире, к примеру выполнять какие либо задачи с помощью роботизированной руки, то ему нужно колоссальное количество попыток для совершенствования. Мало того, процесс обучения сложно реализовать без присутствия человека.

RoboCat тренируется в виртуальном пространстве и реально мире

Агент от DeepMind выгодно отличается тем, что базируется на мультимодальной модели Gato (Кошка на испанском). Эта модель может обрабатывать язык, изображения и главное действия, причем как в симулированном, так и в физическом пространстве. Это позволяет еще на старте обучать его, с помощью около 100 демонстраций различных движений, и только после этого приступать к попытком манипуляции робо-конечностью. Предидущая версия RoboCat работала именно так, и стартовых данных хватало для того что бы обеспечить 36% успешных выполнений задачи.

Технология обучения RoboCat

Но разработчики пошли дальше, и снабдили своего агента функцией генерации данных для собственного обучения, и это перевернуло все. Теперь ИИ способен генирировать различные события в симуляции, взяв за основу как пройденный материал, так собственные попытки выполнить задачу в реальности, и обучаться в виртуальном пространстве. Затем повторять попытки, и обзавевшись новыми данными снова проходить обучение в симуляции. 

Переход RoboCat от двупалого к трехпалому манипулятору

Новая версия RoboCat вдвое успешней выполнняет задачи, даже если развернут для управления новым агрегатом. К примеру выполняет их с помощью трехпалого манипулятора, а обучение проходил на двупалом. Агент успешно адаптируется не только к новым задачам, но также адаптирует себя под разные манипуляторы, и может похвастаться успехом в 74%, даже если находится за данным штурвалом впервые. Причем процесс адаптации к "новому телу" занимает всего пару часов, хотя входящих сигналов от более сложной руки в два раза больше.

Статистика успешно выполненных задач RoboCat

Чем больше данных получает агент тем более успешно он начинает выполнять поставленные задачи, и тем лучше адаптироваться к управлению более сложным механическим телом. А значит если разработки пойдут в том же темпе, то скоро стоит ждать универсальное ПО, способное управлять даже человекоподобным роботом.

 

↩️ Последние новости и значимые события в мире робототехники