или войти через:
Ваша корзина пока пуста
favorite_border
Доступно только зарегистрированным пользователям

В Disney Research научились распознавать связь между изображениями и звуками

schedule 21.11.2016 в 08:27 link Disney Research распознавание объектов ETH Zurich
Известно, что ребенок может получать новую информацию через картинки из книг и связывать изображения со звуками. Но построение системы компьютерного зрения, которая может обучить себя всему сама, не так просто. Используя методы искусственного интеллекта,  исследователи Disney Research и ETH Zurich разработали систему, которая может автоматически распознавать связь между изображениями и звуками, - сообщает Robotics.ua.

Смотря на изображение автомобиля, система может автоматически издать звук двигателя автомобиля. Система, которая знает звук автомобиля, разбивающейся посуды или хлопанья дверью, может использоваться в ряде приложений, таких как добавление звуковых эффектов к фильмам или обеспечение аудио обратной связи для людей с нарушениями зрения, - отмечает Жан-Шарль Базен, доцент и научный сотрудник Disney Research.

Ход исследования



Для решения этой сложной задачи исследовательская группа использовала данные из коллекций видео. «Видео со звуковыми дорожками дают нам естественным образом возможность узнать корреляции между звуками и изображениями», - говорит Базен. – «Видеокамеры оснащены микрофонами для захвата синхронизированной аудио и визуальной информации. В принципе, каждый видеокадр является возможным примером обучения».

Одна из ключевых проблем заключается в том, что видео часто содержат много звуков, которые не имеют ничего общего с визуальным контентом. Эти несвязанные звуки могут включать фоновую музыку, голос за кадром, вне экранные шумы и звуковые эффекты, которые могут запутать схему обучения.

«Звуки, связанные с видеоизображением, могут быть весьма неоднозначными», - пояснил Маркус Гросс, вице-президент Disney Research. - «Занимаясь поиском способа отфильтровать эти посторонние звуки, наша исследовательская команда сделала большой шаг в направлении использования множества новых приложений для компьютерного зрения». «Если у нас есть сборник видео автомобилей, которые содержат фактические звуки двигателя, мы сможем использовать звуковые функции, которые повторяются через несколько видео. С другой стороны, посторонние звуки, которые видео могут содержать, не будут передаваться, и, таким образом, они могут быть отфильтрованы».

После того, как видеокадры с некоррелированными звуками отфильтрованы, алгоритм компьютера может узнать, какие звуки связаны с изображением. Последующие испытания показали, что при представлении изображений предлагаемая система часто могла произвести подходящий звук. По информации robotics.ua, исследование показало, что система показала лучшие результаты, чем специально обученная программа с не фильтрованными видео.

Сочетая творчество и инновации, это исследование продолжает широкую работу Disney по изобретению новых способов сделать машины еще более умными.

Комментарии: