Работы над проектом продолжались более 3 лет и потребовали $5 млн. инвестиций. Созданная питерским «Центром речевых технологий» система получила название «Руссограф», она способна распознавать 30 тыс. словоформ.
Специально под этот проект в «Центре речевых технологий» создали научно-исследовательскую группу из специалистов по лингвистике, фонетике, математике, обработке сигналов и программированию. Был использован набор речевых баз данных, в который входят записи более чем 3000 дикторов общей длительностью около 300 часов, собранных с учетом 5 диалектных групп русского языка. Эти базы были использованы для создания акустических моделей звуков русской речи.
"Русский язык принципиально отличается от других языков не только фонетически (например, звуком "ы"), но и свободным порядком слов в предложении, что значительно усложняет математическое моделирование речи. В результате использование западных технологий для качественного распознавания русской речи не представляется возможным", — отмечает генеральный директор ЦРТ Михаил Хитров.
Важной частью проекта стало создание базового речевого декодера, который, используя оригинальные акустические и языковые модели русского языка, преобразовывает речевой сигнал в текст. Как сообщили CNews в ЦРТ, точность распознавания цифр в телефонной линии составляет 99,9%, а сложных слов — 90%. Тем временем, западные системы анонсируют 95–99% правильного распознавания речи. Однако специалист по компьютерной лингвистике Виктор Бочаров рассказал CNews, что на практике это значение может быть ниже и существенно зависит от набора ожидаемых системой фраз, условий и качества канала (например, телефонного).
Сейчас ЦРТ работает над аппаратной реализацией своей технологии. В 2008 г. компания собирается вывести на рынок несколько продуктов, построенных на основе своей разработки, в частности, систему интерактивного голосового управления для контакт-центров и системы управления промышленными объектами. В перспективе планируется создание карманного переводчика устной русской речи. В ЦРТ отмечают, что промышленное внедрение технологии распознавания «Руссограф» также открывает новые возможности голосового управления компьютерной и бытовой техникой, транспортом, обеспечения безопасности объектов, а также систематизации фонограмм и поиска по аудиоархивам.
Решения на базе распознавания речи могут применяться и для управления «интеллектуальным зданием». «На базе этой технологии можно организовать управление подсистемами „умного дома“ с обратной связью, то есть реализовать голосовой диалог между хозяином и системой, управляющей домом. Наша компания уже испытывает технологию распознавания речи, созданную в ЦРТ, и через полгода мы планируем внедрить его в наши решения», — рассказал CNews генеральный директор компании IntelVision Иван Анцев.
Мировой рынок речевых технологий в 2006 г. был равен $5,6 млрд., а в 2007 г., по оценкам «Финама», вырос на 16% и составил $6,5 млрд. Аналитик «Финама» Владислав Кочетков отмечает, что технология распознавания слитной русской речи может быть сильно востребована на быстроразвивающемся рынке call-центров. В самых простых вариантах такие системы уже используются в России, они позволяют по произнесенному имени сотрудника переключить звонящего на нужный внутренний номер.
Татьяна Ландо, специалист по обработке текста, считает, что в целом проект выглядит многообещающим. «Если он действительно будет работать хорошо, то это значительно подстегнет рынок технологий, связанных не только с обработкой звука, но и текста. А заодно поможет исправить репутацию технологиям распознания слитной речи, в которых уже многие разочаровались», — полагает Татьяна Ландо.
«Распознавание речи — это тот технологический барьер, преодолев который, мы сможем общаться с компьютером так же, как с человеком. ЦРТ сделал серьезную заявку на право быть первыми, по крайней мере, в области славянских языков», — полагает независимый эксперт ИТ-рынка Геннадий Смородин.
Даниил Иванов
Источник: cnews.ru