pinnacle studio

pinnacle studio (https://drbobah.com/forum/)
-   Программы (https://drbobah.com/forum/f40-programmy/)
-   -   Программа распознавания речи (https://drbobah.com/forum/f40-programmy/t33338-programma-raspoznavaniya-rechi/)

commar 01.05.2012 21:35

Программа распознавания речи
 
Мне задали вопрос:

"..есть извлеченная аудиодорожка из видео, в формате mp3, там звучит англоязычный текст.. ..нужна какая-нибудь программа, которая могла бы распознать аудио и вывести его в текстовый документ.... Помогите, пожалуйста, а?"

Мне на ум кроме фигово работающего Горыныча ничего и в голову не пришло. Нашелся ещё Dragon за 160 долларов.

Есть у кого-нибудь опыт использования подобных программ? Очень нужно..

P.S. автор вопроса - девушка, физически ограниченная в передвижениях.

Lord_Video 01.05.2012 23:19

Не знаю, помогу ли таким образом своей информацией - но все же....
Я помешан на мобильных устройствах и в частности - на коммуникаторах. Сейчас у меня Samsung GT-I8150 Galaxy Wonder c операционкой Android. Так вот - на него у меня установлен
Скрытый текст (вы должны зарегистрироваться или войти под своим логином):
У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.

Он при нормальной скорости разговора может перевести в текст словосочетания и целые предложения и сам (сама тетя :)) проговорить переведенное вслух. Иногда пользую.
Для работы использует интернет и свои гугльсервисы. В вышеприведенной ситуации подносишь мобилу к динамику, воспроизводящую этот файл и можно получить текстовый вариант речи. Ну или послушать перевод.

P.S. С матами у него проблемы, гы :biggrin::biggrin::biggrin:..

frontovik 02.05.2012 10:05

Мне кажется машина скорей всего "криво" распознает,я б студента ин.яза поискал...
К слову ,искал прогу по векторизации чертежей из растра в Автокад ,весь софт под эту задачу полный облом ( пришлось все руками делать

commar 02.05.2012 11:09

Подытожу, может быть пригодится кому-нибудь.

Ответы с разных сторон:
Цитата:

Насчёт Горыныча (он же, похоже, "Dragon"). Я его долго искал, но когда нашёл - не обрадовался.
Распознаёт он не плохо, а очень плохо. Возможно, если убить пару месяцев на его обучение, ситуация несколько улучшится, но у меня этой пары месяцев не было....
Цитата:

Главные условия:
1)Читать монотонным голосом как голосом как говорилка. Запомните-никакого выражения.
2)равномерное паузы (расстояние) между словами. Главное соблюдать паузы между словами чтобы не сливались.
3)Равномерное время произнесения слов. Никаких - здрааааааааааааааааааавствууууууйте. Каждому слову- свой отрезок времени. дольше прочтешь-не поймет. Быстрее прочтешь-не поймет.
4)Тембр-не менять. Никакого голосом выше голосом ниже. До Си Соль Фа Ми Ре До.
Все говорить на одной ноте.
5)Использовать только наушники с микрофоном. Возле губ. Не менять расстояние от и до губ.
6)Громкость произношения-одинаковая. .

Нужно все это соблюдать, чтобы звуковой слепок который слышит программа совпадал. Вот так если потренируете, тто результат распознования будет 75%-98%. Главное, чтобы одни и те же слова произносились одинаково.
Цитата:

..твоя затея - пустая трата времени!
В свое время очень хотел провернуть что-то подобное для лекций преподов в ВУЗе, но увы ни фига не получилось!
Проги эти не дошли пока до того уровня чтобы вот так вот с ходу голос распознавать!
Распознают они, но с трудом, после долгого привыкания и если только им медленно выговаривать каждое слово!
Еще более менее сносно работают проги для голосового управления Виндовсом, т.к. там набор слов ограничен... .
Из импортных более менее понравилась REALIZE VOICE - она единственная голос распознавала без особо долгого превыкания..
Цитата:

..Я принимал участие в написании такой проги. Она хорошо распознает речь. Программа писалась под пилота. Он говорит команды, а программа управляет самолетом. У нас получилось под конкретного человека 100% распознование речи. Программа основана на элементах искуственного интеллекта. Сложность в ней в том, что ее надо обучить. Тупо сидеть и произносить слова, она будет их распознавать. Это необходимо, чтоб прога понимала голос. Чем больше записать голосов, тем больше будет вероятность правильного распознавания. Вот.
Цитата:

Пользовал как-то давно Dragon Dictate старенький, не знаю хавает ли он аудиофайлы, но с микрофона речь берет хорошо)
Самая, на мой неискушенный взгляд, подходящая программа для распознавания английской речи - Nuance Dragon NaturallySpeaking. Но размер этой заразы на трекере 2 гб. Русскую речь не распознает. Есть варианты для английского, немецкого, французского и испанского языков (для каждого - свой отдельный дистрибутив). Для английского языка здесь:
Скрытый текст (вы должны зарегистрироваться или войти под своим логином):
У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.

Ещё есть в природе заброшенные, кажется, проекты: Philips FreeSpeech 2000, L&H Voice Xpress Professional, IBM ViaVoice..
Касаемо распознавания русской речи, про Горыныч command 5.0 Light почитать и, если после прочтения появится желание скачать, можно тут:
Скрытый текст (вы должны зарегистрироваться или войти под своим логином):
У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.

О распознавании русской речи и речевых технологиях вообще много информации там:
Скрытый текст (вы должны зарегистрироваться или войти под своим логином):
У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.

И ещё:
журнал CHIP вытворял подобное вот таким образом:
[Для просмотра данной ссылки нужно зарегистрироваться]

Но вообще же, насколько я понял, положение с этим делом примерно такое же аховое, как и 10 и 20 лет назад..
В качестве иллюстрации привожу полный текст диалога по теме распознавания голоса на руборде. Обратите внимание на даты вопросов и ответов:
- Уважаемые, ответьте, пожалуйста, новичку на вопрос темы. Есть ли программы рапознавания голоса для ввода текста. То, что я прочитал на форуме датировалось 2003 годом. Может появилось что-то лучшее, чем Горыныч или Комбат? \ 23-12-2005
- Нет пока не появились. \03-03-2006
- Что, и сейчас не появилось? \21-09-2011
- Похоже, нет. \ 27-11-2011


И ещё один диалог, речь в котором о программах распознавания русской речи, таких как Горыныч и Диктограф:
- У меня один хороший приятель этим занялся. Основал компанию вместе с одним известным языковым колледжем, которая занималась разработкой такого софта.. Через года полтора компания закрылась. Не нашли финансирование. А ты говоришь...-
- Если бы Гейтц полтора года делал свой первый "Windows", то он бы до сих пор сидел бы в раплатанных штанах!!!
- Тоже правда, но ведь та же участь постаигает компании которые этим десятилетиями занимаются!
- То, чем они занимаются, в среде медиков, называется "онанизмом"
- Гейтс тогда главный онанист, да?
- ДА!

))

Lord_Video 02.05.2012 13:39

Для подтверждения вышесказаного насчет качества перевода снял на камеру - как это происходит в моем случае "общения" с гуглпереводчиком -

Звуковой текст взят "от фанаря" на Ютубе.
Причем - я не понял то, что он спросил. И, думаю, он не поймет - что я сказал.
Это все равно, что переводить ААЕ :).

commar 03.05.2012 21:29

Цитата:

Рассказываю, что получилось в результате..

Установила я Nuance Dragon NaturallySpeaking, правда не на компьютер, там выдает ошибку, а на нетбук. Там почему-то встала без проблем. Попробовала я прогнать маленький кусочек аудиофайла, где-то 4 мин 30 сек. Пока тем, что есть, осталась довольна. По крайней мере, может не каждую фразу, но понять о чем говорят можно.
Единственная проблема, хотя это даже не проблема, а просто канительно,- это подготовка самого аудиофайла. Например, в разговоре участвуют три собеседника, так вот надо голос одного вырезать и соединить в один файл, и так же поступить с двумя другими. Затем самой программе дать послушать, каждый из трех голосов, и только потом уже каждый файл преобразовывать в текст..
Еще программе сложно, когда эти три собеседника говорят одновременно, перебивая друг друга..
Ну и надо учесть, что у меня там индийский английский, с их акцентом,.. а на их имена программа вообще ставит пробел А вот с американским английским или с английским англичан, предполагаю, программа справится лучше.
Вот так. Серёж, еще раз большое спасибо тебе и всем тем людям, которые откликнулись на других форумах!
И от меня спасиюо за неравнодушие. ))


Текущее время: 07:54. Часовой пояс GMT +3.

Все использованные на сайте названия продуктов и торговые марки принадлежат их законным владельцам.
При перепечатке или ретрансляции материалов с сервера DrBOBAH.com ссылка на сайт обязательна!


SEO by vBSEO ©2011, Crawlability, Inc.