или войти через:
Ваша корзина пока пуста
favorite_border
Доступно только зарегистрированным пользователям

Передовой распознаватель голоса от ученых из Стэнфорда (+видео)

schedule 29.08.2016 в 08:44 link Stanford University siri
Технологии распознавания речи и текста значительно продвинулись за последние 8 лет. Такие программы, как Google Now, Cortana и Siri уже предоставили эту технологию в руки миллионов пользователей смартфонов и планшетов. Но новое исследование из Стэнфорда показало, что эти системы могут не только переводить устные сообщения в текстовые гораздо быстрее, чем люди, но делать это с лучшей точностью, одновременно отвечая на ваши вопросы и занимаясь организацией ваших ежедневных планов, - передает Robotics.ua.

«Распознавание речи – это то, что нам так рьяно обещали программисты в течение многих десятилетий, но эта технология до сих пор не работала должным образом», - говорит Джеймс Лэндэй, профессор информатики в Стэнфордском университете и соавтор нового исследования. – «Мы заметили, что в последние два-три года технологии распознавания речи были значительно улучшены, способные обрабатывать большие объемы данных, а благодаря глубокому обучению, они могут настроить свои нейронные сети для производства быстрых и более точных результатов. Поэтому мы решили официально протестировать эти системы на простых пользователях».



Результаты исследования

Лэндэй и его коллеги провели эксперимент, в котором они задействовали 32 участника в возрасте от 19 до 32 лет. В качестве исследуемой платформы выступала программа Deep Speech 2 от Baidu, - конкурент поисковика Google в Китае. Для половины испытуемых набор осуществлялся на английском языке на клавиатуре QWERTY, а для другой – на мандарине (северокитайский язык) с использованием клавиатуры iOS Pinyin. Компьютерам нужно было напечатать более 100 типовых разговорных фраз, как «давай весело проведем выходные» или «давай сходим на пиццу и пиво».

Исследователи говорят, что в обоих языках перевод речи в текст оказался гораздо быстрее, чем ручной ввод текстовых сообщений. Скорость набора на английском языке была в три раза быстрее, а на китайском - в 2,8. Это неудивительно. Согласно robotics.ua, Dragon NaturallySpeaking ещё в 2009 году утверждали, что данная технология набора в три раза быстрее, чем фактический набор текста, особенно если речь идет о неудобной клавиатуре сенсорного экрана смартфона.

Исследование также показало, что технология была намного более точной, чем у программ конкурентов. Частота появления ошибок на английском языке составила 20,4 процента.

Несмотря на то, что исследователи использовали только программу Baidu Deep Speech 2, они считают, что и другие высококачественные программы записи речи в текст будут работать на том же уровне, и это, они надеются, будет вдохновлять инженеров лучше использовать технологии вне сфер текстовых сообщений и сообщений электронной почты.

«Мы должны использовать речь в большем количестве приложений, чем просто набор сообщений электронной почты», - говорит Лэндэй. – «Вы можете себе представить любой интерфейс, где вы используете речь вначале, а затем переключаетесь на графический редактор с сенсорным управлением для быстроты и эффективности набора».

Читайте также: Русскоязычный искусственный интеллект Siri признан гомофобом (+видео)

Ход исследования программы можно посмотреть на видео ниже.

Видео

Комментарии: