или войти через:
Ваша корзина пока пуста
favorite_border
Доступно только зарегистрированным пользователям

В MIT разработали инновационный алгоритм машинного зрения

schedule 09.04.2014 в 12:28 link MIT машинное зрение
​Предположим, вы пытаетесь перейти незнакомую секцию большого города. Вы используете особые предметы в окружающей вас среде в качестве точки отсчета. Трафик и улицы с односторонним движением заставляют вас совершать странные повороты. При этом вы на некоторое время теряете из виду ваши ориентиры. Когда они появляются, чтобы использовать их для навигации, вы должны быть в состоянии идентифицировать их, как те же предметы. Тоже самое должен уметь и робот.



Этот тип повторной идентификации, вторая натура для людей, но это трудная задача для компьютеров. На конференции по компьютерному зрению и распознавания образов IEEE, которая состоится в июне, исследователи из MIT представят новый алгоритм, который может сделать это намного проще, путем выявления основных моментов ориентации в 3D сцене. Этот же алгоритм может упростить задачу понимания сцены. Это одна из центральных проблем в области исследований компьютерного зрения.

Прежде всего, алгоритм предназначен для оказания помощи роботам, находящимся в незнакомых зданиях. Он работает путем выявления доминирующих объектов в той или иной сцене, которую он представляет в виде наборов осей. Когда робот перемещается, он наблюдает сферу и вращается в противоположном направлении. При этом он может оценить свою ориентацию относительно осей.



Тот же алгоритм резко упрощает задачу плоскостной сегментации и решает, какие элементы визуальной сцены есть не правдивые. Например, сегментация при полете самолета, позволяет компьютеру строить квадратные 3D модели объектов в сцене, которые хранятся в 3D моделях известных объектов.

Julian Straub, аспирант в области электротехники и компьютерных наук в Массачусетском технологическом институте, является ведущим автором этого проекта. Так же у него есть советники. John Fisher, старший научный сотрудник в Массачусетском технологическом институте информатики и лаборатории искусственного интеллекта. John Leonard, профессор механики, а также Oren Freifeld и Guy Rosman - постдоктора по методам зондирования.

Новый алгоритм исследователей работает на 3D данных, которые захватываются с помощью Microsoft Kinect или лазерных дальномеров. Во-первых, используя установленные процедуры, алгоритм оценивает ориентации большого числа отдельных точек в сцене. Эти ориентации затем представляются в виде точек на поверхности сферы, при этом каждый пункт определяет уникальный угол по отношению к центру сферы.

Поскольку первоначальная оценка ориентации является грубой, точки на сфере образуют рыхлые скопления, которые могут быть трудно различаемые. Используя статистическую информация о неопределенности исходных оценок ориентации, алгоритм пытается соответствовать кадрам для точек на сфере.

Основная идея аналогична регрессионному анализу - найти строки, которые максимально приближаются при рассеивании точек. Но это сложно с геометрией сферы. «Большинство из методов классической статистики основывается на линейности и евклидовых расстояниях. Вы можете взять две точки, сложить их, разделить на две части, и это даст вам среднее значение», говорит Oren Freifeld. «Но когда вы работаете в пространствах, когда вы делаете это усреднение, вы можете выходить за пределы пространства».

Рассмотрим, в качестве примера измерения географических расстояний. «Скажем, вы находитесь в Токио, а я нахожусь в Нью-Йорке», говорит Freifeld. «Мы не хотим, чтобы наша средняя была в середине Земли, мы хотим, чтобы это было на поверхности. «Один из ключей к новому алгоритму является тот факт, что он включает в себя эти геометрии в статистические рассуждения о сцене».

В принципе, можно было бы приблизить данные точки очень точно с помощью сотни разных кадров, но это даст модель, которая слишком сложна, чтобы быть полезной. Таким образом, еще один аспект алгоритма является функция затрат, который влечет точность аппроксимации против количества кадров. Алгоритм начинается с фиксированным количеством кадров (от 3-х до 10-ти), в зависимости от ожидаемой сложности сцены, а затем пытается чистить это число без ущерба для общего количества функций.

Полученное множество кадров не может представлять тонкие различия между объектами, которые слегка неровные друг с другом. Но эти различия не очень полезны для навигационной системы. «Подумайте, как вы ориентируетесь в номере», говорит John Fisher. «Вы не строите точную модель среды. Вы захватываете свободные статистические данные, которые позволяют завершить задачу таким образом, что вы не наткнулись на спинку стула или что-то вроде этого».

После того, как набор кадров был определен, проблема сегментации плоскости становится намного проще. Объекты, которые не занимают большую часть поля зрения (потому что они маленькие, далекие) делают проблему для существующих алгоритмов, потому что они дают так мало информации об их характеристиках, что их ориентация не может быть надежной. Но если проблема выбора одной из выбора среди всего нескольких возможных ориентаций, а не потенциальной бесконечности, алгоритм становится гораздо более отзывчивым.

Так или иначе, алгоритм в действии мы увидим уже в июне этого года. Будем ждать.

Комментарии: