Команда молодых перспективных исследователей, возглавляемая греческим специалистом по информационным технологиям, создала программу искусственного интеллекта, которая «читает по губам» с большой точностью.
Программа была разработана исследователями для Google и ее британской дочерней компанией Deep Mind, являющейся мировым лидером в области искусственного интеллекта и возглавляемой кандидатом PhD по механическому обучению, Яннисом Ассаэлем (Γιάννη Ασσαέλ).
Для миллионов людей, которые лишены слуха, «чтение по губам» - это единственное путь для общения, помимо яыка жестов. Однако «чтение по губам» совсем непросто и зачастую неточно. Новая «умная» система имеет средний коэффициент ошибок в 41% случаев, при распознавании произносимых слов. На первый взгляд этот процент может показаться довольно высоким, однако, предыдущая программа существующая до сегодняшнего дня давала 77% ошибок.
Создать алгоритмы распознавания произносимых слов, по словам молодых специалистов, было чрезвычайно сложно. Исследователи загрузили в систему 140.000 часов видеороликов YouTube, показывающих людей, говорящих на английском языке. Затем ученые сопоставили в системе механического обучения движения губ и слова, которые они обозначают/произносят. В конечном итоге получилась программа. Система основана на искусственных нейронных сетях, то есть группе алгоритмов, каждая из которых выполняет другую и более простую работу. Одновременно с этим все они связаны и взаимодействуют в обработке информации (как это делают нейроны человеческого мозга).
После того, как система «самообучилась», исследователи протестировали "чтение по губам" на протяжении 37-минутного видео, которое никогда раньше не «видела» система. Программа ошиблась в 41% слов, но люди, специалисты «чтения по губам», для которых воспроизвели то же видео, в 93% выдали правильные ответы.
Данный показатель в реальных условиях, конечно, не сопоставим с видеонаблюдением. Ведь человек читает не только по губам, но и воспринимает сигналы человеческого тела, язык жестов. Поэтому на этот раз человек выиграл у машины.
В любом случае, хотя это реальный прогресс, очевидно, что 40%-ный уровень ошибок в распознавании речи означает, что система все еще нуждается в существенном улучшении. И когда это произойдет, система может быть использована более широко в повседневной жизни.
Яннис Ассаэль окончил в Греции Κολλεγίου Ανατόλια (Салоники), и изучал прикладную информатику в Университете Македонии (2008-2013).
Затем молодой перспективный ученый поступил в Оксфорд, где продолжил осваивать компьютерные науки. В настоящий момент Яннис Ассаэль пишет кандидатскую диссертацию в области «искусственного интеллекта», продолжая работать над Deep Mind от Google.
Автор Алексия Захариу
|