Top.Mail.Ru
Оксфорд научил машину понимать людей Выпуск 08 ноября 2016 года
Распознавание речи на основании мимики человека - сложнейшая задача. О новинках из области высоких технологий - Николай Гринько в рубрике на "Вестях ФМ". Освоившие этот навык люди с переменным успехом распознают десятки фонем, многие из которых очень похожи внешне. Различить по губам произношение некоторых согласных звуков практически невозможно. Даже самые лучшие специалисты демонстрируют точность всего лишь около 20%. Автоматическое чтение по губам - одна из задач машинного зрения, которая сводится к покадровой обработке видеоряда. Задача сильно усложняется низким качеством большинства видеоматериалов. Лица двигаются и поворачиваются в разные стороны. Последние разработки в области машинного зрения пытаются отслеживать движение лица в кадре, но до последнего времени они были способны распознавать только отдельные слова. Значительного прорыва в данной области добились разработчики из Оксфордского университета. Обученная ими нейросеть LipNet стала первой в мире, которая успешно распознаёт по губам речь на уровне целых предложений, обрабатывая видеоряд. Нейросеть показывает точность распознавания 93,4%. Это не только превышает точность распознавания других программных разработок, но и превосходит эффективность чтения по губам специально обученных людей. Конечно, такая точность - это всё-таки результат, полученный в лабораторных условиях, при распознавании произвольной человеческой речи результат будет гораздо хуже. Однако цифра все равно впечатляют. Коллектив редакции нашей программы сразу же вспомнил эпизод из фильма Стенли Кубрика "Космическая одиссея 2001", в котором коварный компьютер распознавал речь членов экипажа по губам. Однако мы верим, что разработка будет использована во благо человечества - например, для создания автоматических субтитров к видео, мгновенного перевода видеочатов на другие языки и голосового управления гаджетами. Нужно только объединить привычный алгоритм распознавания речи по звуку и новую систему чтения по губам - полагаем, что совместная работа двух алгоритмов приведет к почти стопроцентному результату. Но и сам по себе новый софт может оказаться полезным - например, можно будет набирать текст, повернув на себя камеру смартфона или ноутбука и беззвучно проговаривая его, шевеля губами. Конечно, привычный клавиатурный ввод таким способом не заменить, хотя...  
Хай-тек
Наука, новостные,
17 сезонов, 2073 выпуска по 3 мин
Выпуски
2026