Наука для всех простыми словами

Самый лучший сайт c познавательной информацией.

Нейросеть научилась читать по губам лучше человека.

12.12.2016 в 10:52

Разработчики из оксфордского университета создали первую в мире программу, которая распознает речь по губам на уровне целых предложений и делает это намного лучше человека. Ее работа на использовании нейросетей и методов глубинного обучения основана. Научная статья исследователей, которая была подготовлена к конференции Iclr 2017, опубликована в открытом доступе.

Нейросеть научилась читать по губам лучше человека.
Автоматические системы распознавания речи на основе мимики человека имеют большой практический потенциал: они могут быть использованы для создания слуховых аппаратов нового поколения, биометрической идентификации или расследования преступлений. Поэтому ученые уже много лет пытаются разработать программу для "Чтения" по губам, но до сих пор им не удавалось добиться успеха. Современные системы распознавания речи на основе мимики хорошо "Считывали" отдельные слова и словосочетания, однако они не могли справиться с целыми предложениями.

Авторы нового исследования преодолели это ограничение с помощью программы Lipnet, в основе которой лежит использование Lstm - нейросети. Эта нейросеть представляет собой подвид рекуррентных нейросетей, для которых характерно наличие обратной связи. Ее главная особенность заключается в том, что она способна обучаться долговременным зависимостям. На практике это означает, что Lstm - нейросеть по умолчанию хранит информацию в течение продолжительного периода времени и способна работать с контекстом в длинных предложениях (подробнее о Lstm и рекуррентных нейросетях вы можете прочитать в нашем материале. Кроме того, исследователи также использовали специальную сверточную нейросеть (Stcnn), которая хорошо справляется с задачей анализа видео, и обучение методом нейросетевой темпоральной классификации (Connectionist Temporal Classification, CTC.

В качестве исходного материала авторы работы взяли базу данных Grid, в которой было собрано более 32 тысяч видеозаписей. На них 13 человек произносили на английском языке предложения, построенные по одинаковому принципу: команда (4) цвет (4) предлог (4) буква (25) число (10) наречие (4. в скобках указано количество вариантов слов для каждой из шести словесных категорий. Разнообразие вариантов обуславливается тем, что разные звуки (например, p, b, m ) во время произношения выглядят почти одинаково, то есть имеют общую визему. Всего каждое предложение имело по 64 тысячи вариантов.

Результаты тестирования показали, что Lipnet может правильно распознавать речь по губам в 93, 4 процентах случаев. Таким образом, системе удалось не только обойти другие программы, но и специально обученных людей (их точность распознавания речи достигает 52, 3 процентов. Тем не менее, сами авторы работы отмечают, что условия проверки работы Lipnet были весьма "Тепличными", при распознавании произвольной человеческой речи результат может быть значительно хуже.