или войти через:
Ваша корзина пока пуста
favorite_border
Доступно только зарегистрированным пользователям

Ученые MIT разработали алгоритм сбора данных при работе с искусственным интеллектом

schedule 29.07.2014 в 11:01 link MIT
​Много исследований искусственного интеллекта решают свои основные задачи, делая прогнозы, основанные на больших наборах данных. Очевидным примером являются рекомендованные двигатели на таких сайтах, как Amazon и Netflix. Но некоторые типы данных труднее собирать, чем онлайн-истории, например информацию о геологических породах, которые находятся тысячи метров под землей. И в других приложениях, например, при попытке предсказать направление шторма. Ведь может просто не хватить времени, чтобы обработать все имеющиеся данные.

Это довольно интересный вопрос, и наш портал расскажет вам о том, как правильно выбрать нужные данные из бесчисленной цепочки информации.

Дэн Левин (Dan Levine), аспирант Массачусетского технологического института в области аэронавтики и астронавтики, и его коллега, Джонатан Хоу (Jonathan How), профессор аэронавтики и астронавтики, разработали новый метод, который может помочь с решением этих проблем. Для целого ряда распространенных приложений, в которых данные либо трудно собрать, либо слишком мало времени, чтобы их обработать, техника может идентифицировать подмножество элементов данных, которые принесут самые надежные прогнозы. Так геологи пытаются оценить масштабы подземных нефтяных месторождений, или метеорологи, пытающиеся предсказать погоду, могут обойтись всего несколькими целевыми измерениями, экономя время и деньги.
Левин и Хоу, которые представили свои работы на конференции по неопределенности в искусственном интеллекте на этой неделе, рассмотрели частный случай, в котором речь шла об отношениях между элементами данных, которые известны заранее. Предсказание погоды предоставляет интуитивно понятный пример: измерения температуры, давления и скорости ветра на одном месте, как правило, могут измениться в том же месте через некоторое время, и корреляция ослабевает при перемещении как географически, так и хронологически.



Графическое содержание:
Такие корреляции могут быть представлены в виде вероятностной графической модели. В этом контексте, графиком является математическая абстракция, состоящая из узлов, которые обычно изображены в виде кругов и отрезков, соединяющих узлы. Схема сети является одним из примеров графика. В вероятностной графической модели узлы являются переменными, а отрезки представляют силу корреляции между ними.

Ученые разработали алгоритм, который может эффективно вычислить, как много информации любой узел в графике может дать вам о любом другом узле - то, что в теории называется «взаимной информацией». Как объясняет Левин, одним из препятствий на пути эффективного выполнения является наличие «петель» в графике, которые соединены более чем одним маршрутом.

Расчет взаимной информации происходит между узлами. Левин говорит, что для примера можно ввести синюю краску в один из них, а затем измерить концентрацию краски на другом узле. «Как правило, концентрация будет уменьшаться, как мы следуем по графику. Если есть единственный путь между ними, то мы можем вычислить его довольно легко. Но если в графике есть петли, то это сложнее для нас, чтобы вычислить, где находится краска в других узлах, потому что есть много различных путей».

Итак, первый шаг в технике исследователей заключается в расчете «связующих деревьев» для графика. Дерево – это просто график без циклов. В генеалогическом дереве, например, цикл может означать, что кто-то был родителем и братом одному человеку. Связующим является дерево, которое касается всех узлов графика, но обходится без отрезков, которые создают петли.

Ставки на расширение:
Большинство из узлов, которые остаются на графике, неудобны, то есть они не содержат много полезной информации об узле, представляющем интерес. Ключом к методу Левина и Хоу является возможность использовать те узлы для навигации графика, не позволяя искажать расчет на большие расстояния взаимной информации.

Это возможно, так как вероятности, представленные на графике, являются гауссовыми. Это означает, что они следуют за воронкообразным расширением, которое выступает в качестве модели. Распределение Гаусса исчерпывающе характеризуется всего двумя измерениями: средним значением и скоростью, с которой воронка распределяется.

«Неопределенность в вопросе действительно зависит от распределения», говорит Левин. «Это на самом деле не зависит от того, где распределение сосредоточено в пространстве». Как следствие, данные часто можно вычислить через вероятностную графическую модель, не полагаясь на конкретные значения узлов. «Полезность данных можно оценить, прежде чем сами данные станут доступными», говорит в заключении ученый.

Комментарии: