Программа распознавания речи

commar · **Конфигурация компа**:

Мне задали вопрос:

"..есть извлеченная аудиодорожка из видео, в формате mp3, там звучит англоязычный текст.. ..нужна какая-нибудь программа, которая могла бы распознать аудио и вывести его в текстовый документ.... Помогите, пожалуйста, а?"

Мне на ум кроме фигово работающего Горыныча ничего и в голову не пришло. Нашелся ещё Dragon за 160 долларов.

Есть у кого-нибудь опыт использования подобных программ? Очень нужно..

P.S. автор вопроса - девушка, физически ограниченная в передвижениях.

Lord_Video · **Конфигурация компа**:

Не знаю, помогу ли таким образом своей информацией - но все же....
Я помешан на мобильных устройствах и в частности - на коммуникаторах. Сейчас у меня Samsung GT-I8150 Galaxy Wonder c операционкой Android. Так вот - на него у меня установлен

Скрытый текст (вы должны зарегистрироваться или войти под своим логином):

У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.

Он при нормальной скорости разговора может перевести в текст словосочетания и целые предложения и сам (сама тетя :)) проговорить переведенное вслух. Иногда пользую.
Для работы использует интернет и свои гугльсервисы. В вышеприведенной ситуации подносишь мобилу к динамику, воспроизводящую этот файл и можно получить текстовый вариант речи. Ну или послушать перевод.

P.S. С матами у него проблемы, гы

..

frontovik · **Конфигурация компа**:

Мне кажется машина скорей всего "криво" распознает,я б студента ин.яза поискал...
К слову ,искал прогу по векторизации чертежей из растра в Автокад ,весь софт под эту задачу полный облом ( пришлось все руками делать

commar · **Конфигурация компа**:

Подытожу, может быть пригодится кому-нибудь.

Ответы с разных сторон:

Цитата:

Насчёт Горыныча (он же, похоже, "Dragon"). Я его долго искал, но когда нашёл - не обрадовался.
Распознаёт он не плохо, а очень плохо. Возможно, если убить пару месяцев на его обучение, ситуация несколько улучшится, но у меня этой пары месяцев не было....

Цитата:

Главные условия:
1)Читать монотонным голосом как голосом как говорилка. Запомните-никакого выражения.
2)равномерное паузы (расстояние) между словами. Главное соблюдать паузы между словами чтобы не сливались.
3)Равномерное время произнесения слов. Никаких - здрааааааааааааааааааавствууууууйте. Каждому слову- свой отрезок времени. дольше прочтешь-не поймет. Быстрее прочтешь-не поймет.
4)Тембр-не менять. Никакого голосом выше голосом ниже. До Си Соль Фа Ми Ре До.
Все говорить на одной ноте.
5)Использовать только наушники с микрофоном. Возле губ. Не менять расстояние от и до губ.
6)Громкость произношения-одинаковая. .

Нужно все это соблюдать, чтобы звуковой слепок который слышит программа совпадал. Вот так если потренируете, тто результат распознования будет 75%-98%. Главное, чтобы одни и те же слова произносились одинаково.

Цитата:

..твоя затея - пустая трата времени!
В свое время очень хотел провернуть что-то подобное для лекций преподов в ВУЗе, но увы ни фига не получилось!
Проги эти не дошли пока до того уровня чтобы вот так вот с ходу голос распознавать!
Распознают они, но с трудом, после долгого привыкания и если только им медленно выговаривать каждое слово!
Еще более менее сносно работают проги для голосового управления Виндовсом, т.к. там набор слов ограничен... .
Из импортных более менее понравилась REALIZE VOICE - она единственная голос распознавала без особо долгого превыкания..

Цитата:

..Я принимал участие в написании такой проги. Она хорошо распознает речь. Программа писалась под пилота. Он говорит команды, а программа управляет самолетом. У нас получилось под конкретного человека 100% распознование речи. Программа основана на элементах искуственного интеллекта. Сложность в ней в том, что ее надо обучить. Тупо сидеть и произносить слова, она будет их распознавать. Это необходимо, чтоб прога понимала голос. Чем больше записать голосов, тем больше будет вероятность правильного распознавания. Вот.

Цитата:

Пользовал как-то давно Dragon Dictate старенький, не знаю хавает ли он аудиофайлы, но с микрофона речь берет хорошо)

Самая, на мой неискушенный взгляд, подходящая программа для распознавания английской речи - Nuance Dragon NaturallySpeaking. Но размер этой заразы на трекере 2 гб. Русскую речь не распознает. Есть варианты для английского, немецкого, французского и испанского языков (для каждого - свой отдельный дистрибутив). Для английского языка здесь:

Скрытый текст (вы должны зарегистрироваться или войти под своим логином):

У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.

Ещё есть в природе заброшенные, кажется, проекты: Philips FreeSpeech 2000, L&H Voice Xpress Professional, IBM ViaVoice..
Касаемо распознавания русской речи, про Горыныч command 5.0 Light почитать и, если после прочтения появится желание скачать, можно тут:

Скрытый текст (вы должны зарегистрироваться или войти под своим логином):

У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.

О распознавании русской речи и речевых технологиях вообще много информации там:

Скрытый текст (вы должны зарегистрироваться или войти под своим логином):

У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.

И ещё:
журнал CHIP вытворял подобное вот таким образом:
[Для просмотра данной ссылки нужно ]

Но вообще же, насколько я понял, положение с этим делом примерно такое же аховое, как и 10 и 20 лет назад..
В качестве иллюстрации привожу полный текст диалога по теме распознавания голоса на руборде. Обратите внимание на даты вопросов и ответов:
- Уважаемые, ответьте, пожалуйста, новичку на вопрос темы. Есть ли программы рапознавания голоса для ввода текста. То, что я прочитал на форуме датировалось 2003 годом. Может появилось что-то лучшее, чем Горыныч или Комбат? \ 23-12-2005
- Нет пока не появились. \03-03-2006
- Что, и сейчас не появилось? \21-09-2011
- Похоже, нет. \ 27-11-2011

И ещё один диалог, речь в котором о программах распознавания русской речи, таких как Горыныч и Диктограф:
- У меня один хороший приятель этим занялся. Основал компанию вместе с одним известным языковым колледжем, которая занималась разработкой такого софта.. Через года полтора компания закрылась. Не нашли финансирование. А ты говоришь...-
- Если бы Гейтц полтора года делал свой первый "Windows", то он бы до сих пор сидел бы в раплатанных штанах!!!
- Тоже правда, но ведь та же участь постаигает компании которые этим десятилетиями занимаются!
- То, чем они занимаются, в среде медиков, называется "онанизмом"
- Гейтс тогда главный онанист, да?
- ДА!
))

Lord_Video · **Конфигурация компа**:

Для подтверждения вышесказаного насчет качества перевода снял на камеру - как это происходит в моем случае "общения" с гуглпереводчиком -

Звуковой текст взят "от фанаря" на Ютубе.
Причем - я не понял то, что он спросил. И, думаю, он не поймет - что я сказал.
Это все равно, что переводить ААЕ :).

commar · **Конфигурация компа**:

Цитата:

Рассказываю, что получилось в результате..

Установила я Nuance Dragon NaturallySpeaking, правда не на компьютер, там выдает ошибку, а на нетбук. Там почему-то встала без проблем. Попробовала я прогнать маленький кусочек аудиофайла, где-то 4 мин 30 сек. Пока тем, что есть, осталась довольна. По крайней мере, может не каждую фразу, но понять о чем говорят можно.
Единственная проблема, хотя это даже не проблема, а просто канительно,- это подготовка самого аудиофайла. Например, в разговоре участвуют три собеседника, так вот надо голос одного вырезать и соединить в один файл, и так же поступить с двумя другими. Затем самой программе дать послушать, каждый из трех голосов, и только потом уже каждый файл преобразовывать в текст..
Еще программе сложно, когда эти три собеседника говорят одновременно, перебивая друг друга..
Ну и надо учесть, что у меня там индийский английский, с их акцентом,.. а на их имена программа вообще ставит пробел А вот с американским английским или с английским англичан, предполагаю, программа справится лучше.
Вот так. Серёж, еще раз большое спасибо тебе и всем тем людям, которые откликнулись на других форумах!

И от меня спасиюо за неравнодушие. ))