Фото: Canon EOS 600D Kit EF-S 18-55 IS II, EF-S 55-250 mm F/4-5.6 IS + EF 85 mm f/1.8 USM + EF 50mm f/1.8 Видео: Panasonic NV GS-400 Оборудование: Sirui T-1005X с головой G-10\SLIK U-8000\Sony VCT570RM/
Программа распознавания речи -
01.05.2012, 21:35
Мне задали вопрос:
"..есть извлеченная аудиодорожка из видео, в формате mp3, там звучит англоязычный текст.. ..нужна какая-нибудь программа, которая могла бы распознать аудио и вывести его в текстовый документ.... Помогите, пожалуйста, а?"
Мне на ум кроме фигово работающего Горыныча ничего и в голову не пришло. Нашелся ещё Dragon за 160 долларов.
Есть у кого-нибудь опыт использования подобных программ? Очень нужно..
P.S. автор вопроса - девушка, физически ограниченная в передвижениях.
Эти 4 пользователей(ля) поблагодарили commar за это полезное сообщение:
Не знаю, помогу ли таким образом своей информацией - но все же....
Я помешан на мобильных устройствах и в частности - на коммуникаторах. Сейчас у меня Samsung GT-I8150 Galaxy Wonder c операционкой Android. Так вот - на него у меня установлен
Скрытый текст (вы должны зарегистрироваться или войти под своим логином):
У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.
Он при нормальной скорости разговора может перевести в текст словосочетания и целые предложения и сам (сама тетя :)) проговорить переведенное вслух. Иногда пользую.
Для работы использует интернет и свои гугльсервисы. В вышеприведенной ситуации подносишь мобилу к динамику, воспроизводящую этот файл и можно получить текстовый вариант речи. Ну или послушать перевод.
P.S. С матами у него проблемы, гы ..
Сниму порчу. На видео...
Внимание! Данное сообщение заговорено. Лучше ничего не делать, чем делать что-то не то. [Для просмотра данной ссылки нужно ]
[Для просмотра данной ссылки нужно ]
Эти 7 пользователей(ля) поблагодарили Lord_Video за это полезное сообщение:
Мне кажется машина скорей всего "криво" распознает,я б студента ин.яза поискал...
К слову ,искал прогу по векторизации чертежей из растра в Автокад ,весь софт под эту задачу полный облом ( пришлось все руками делать
... Ищите не проторенных путей, но не уклоняйтесь от [Для просмотра данной ссылки нужно ]
Эти 3 пользователей(ля) поблагодарили frontovik за это полезное сообщение:
Фото: Canon EOS 600D Kit EF-S 18-55 IS II, EF-S 55-250 mm F/4-5.6 IS + EF 85 mm f/1.8 USM + EF 50mm f/1.8 Видео: Panasonic NV GS-400 Оборудование: Sirui T-1005X с головой G-10\SLIK U-8000\Sony VCT570RM/
02.05.2012, 11:09
Подытожу, может быть пригодится кому-нибудь.
Ответы с разных сторон:
Цитата:
Насчёт Горыныча (он же, похоже, "Dragon"). Я его долго искал, но когда нашёл - не обрадовался.
Распознаёт он не плохо, а очень плохо. Возможно, если убить пару месяцев на его обучение, ситуация несколько улучшится, но у меня этой пары месяцев не было....
Цитата:
Главные условия:
1)Читать монотонным голосом как голосом как говорилка. Запомните-никакого выражения.
2)равномерное паузы (расстояние) между словами. Главное соблюдать паузы между словами чтобы не сливались.
3)Равномерное время произнесения слов. Никаких - здрааааааааааааааааааавствууууууйте. Каждому слову- свой отрезок времени. дольше прочтешь-не поймет. Быстрее прочтешь-не поймет.
4)Тембр-не менять. Никакого голосом выше голосом ниже. До Си Соль Фа Ми Ре До.
Все говорить на одной ноте.
5)Использовать только наушники с микрофоном. Возле губ. Не менять расстояние от и до губ.
6)Громкость произношения-одинаковая. .
Нужно все это соблюдать, чтобы звуковой слепок который слышит программа совпадал. Вот так если потренируете, тто результат распознования будет 75%-98%. Главное, чтобы одни и те же слова произносились одинаково.
Цитата:
..твоя затея - пустая трата времени!
В свое время очень хотел провернуть что-то подобное для лекций преподов в ВУЗе, но увы ни фига не получилось!
Проги эти не дошли пока до того уровня чтобы вот так вот с ходу голос распознавать!
Распознают они, но с трудом, после долгого привыкания и если только им медленно выговаривать каждое слово!
Еще более менее сносно работают проги для голосового управления Виндовсом, т.к. там набор слов ограничен... .
Из импортных более менее понравилась REALIZE VOICE - она единственная голос распознавала без особо долгого превыкания..
Цитата:
..Я принимал участие в написании такой проги. Она хорошо распознает речь. Программа писалась под пилота. Он говорит команды, а программа управляет самолетом. У нас получилось под конкретного человека 100% распознование речи. Программа основана на элементах искуственного интеллекта. Сложность в ней в том, что ее надо обучить. Тупо сидеть и произносить слова, она будет их распознавать. Это необходимо, чтоб прога понимала голос. Чем больше записать голосов, тем больше будет вероятность правильного распознавания. Вот.
Цитата:
Пользовал как-то давно Dragon Dictate старенький, не знаю хавает ли он аудиофайлы, но с микрофона речь берет хорошо)
Самая, на мой неискушенный взгляд, подходящая программа для распознавания английской речи - Nuance Dragon NaturallySpeaking. Но размер этой заразы на трекере 2 гб. Русскую речь не распознает. Есть варианты для английского, немецкого, французского и испанского языков (для каждого - свой отдельный дистрибутив). Для английского языка здесь:
Скрытый текст (вы должны зарегистрироваться или войти под своим логином):
У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.
Ещё есть в природе заброшенные, кажется, проекты: Philips FreeSpeech 2000, L&H Voice Xpress Professional, IBM ViaVoice..
Касаемо распознавания русской речи, про Горыныч command 5.0 Light почитать и, если после прочтения появится желание скачать, можно тут:
Скрытый текст (вы должны зарегистрироваться или войти под своим логином):
У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.
О распознавании русской речи и речевых технологиях вообще много информации там:
Скрытый текст (вы должны зарегистрироваться или войти под своим логином):
У вас нет прав чтобы видеть скрытый текст, содержащейся здесь.
И ещё:
журнал CHIP вытворял подобное вот таким образом: [Для просмотра данной ссылки нужно ]
Но вообще же, насколько я понял, положение с этим делом примерно такое же аховое, как и 10 и 20 лет назад..
В качестве иллюстрации привожу полный текст диалога по теме распознавания голоса на руборде. Обратите внимание на даты вопросов и ответов: - Уважаемые, ответьте, пожалуйста, новичку на вопрос темы. Есть ли программы рапознавания голоса для ввода текста. То, что я прочитал на форуме датировалось 2003 годом. Может появилось что-то лучшее, чем Горыныч или Комбат? \ 23-12-2005
- Нет пока не появились. \03-03-2006
- Что, и сейчас не появилось? \21-09-2011
- Похоже, нет. \ 27-11-2011
И ещё один диалог, речь в котором о программах распознавания русской речи, таких как Горыныч и Диктограф: - У меня один хороший приятель этим занялся. Основал компанию вместе с одним известным языковым колледжем, которая занималась разработкой такого софта.. Через года полтора компания закрылась. Не нашли финансирование. А ты говоришь...-
- Если бы Гейтц полтора года делал свой первый "Windows", то он бы до сих пор сидел бы в раплатанных штанах!!!
- Тоже правда, но ведь та же участь постаигает компании которые этим десятилетиями занимаются!
- То, чем они занимаются, в среде медиков, называется "онанизмом"
- Гейтс тогда главный онанист, да?
- ДА!
))
Эти 3 пользователей(ля) поблагодарили commar за это полезное сообщение:
Для подтверждения вышесказаного насчет качества перевода снял на камеру - как это происходит в моем случае "общения" с гуглпереводчиком -
Звуковой текст взят "от фанаря" на Ютубе.
Причем - я не понял то, что он спросил. И, думаю, он не поймет - что я сказал.
Это все равно, что переводить ААЕ :).
Сниму порчу. На видео...
Внимание! Данное сообщение заговорено. Лучше ничего не делать, чем делать что-то не то. [Для просмотра данной ссылки нужно ]
[Для просмотра данной ссылки нужно ]
Эти 5 пользователей(ля) поблагодарили Lord_Video за это полезное сообщение:
Фото: Canon EOS 600D Kit EF-S 18-55 IS II, EF-S 55-250 mm F/4-5.6 IS + EF 85 mm f/1.8 USM + EF 50mm f/1.8 Видео: Panasonic NV GS-400 Оборудование: Sirui T-1005X с головой G-10\SLIK U-8000\Sony VCT570RM/
03.05.2012, 21:29
Цитата:
Рассказываю, что получилось в результате..
Установила я Nuance Dragon NaturallySpeaking, правда не на компьютер, там выдает ошибку, а на нетбук. Там почему-то встала без проблем. Попробовала я прогнать маленький кусочек аудиофайла, где-то 4 мин 30 сек. Пока тем, что есть, осталась довольна. По крайней мере, может не каждую фразу, но понять о чем говорят можно.
Единственная проблема, хотя это даже не проблема, а просто канительно,- это подготовка самого аудиофайла. Например, в разговоре участвуют три собеседника, так вот надо голос одного вырезать и соединить в один файл, и так же поступить с двумя другими. Затем самой программе дать послушать, каждый из трех голосов, и только потом уже каждый файл преобразовывать в текст..
Еще программе сложно, когда эти три собеседника говорят одновременно, перебивая друг друга..
Ну и надо учесть, что у меня там индийский английский, с их акцентом,.. а на их имена программа вообще ставит пробел А вот с американским английским или с английским англичан, предполагаю, программа справится лучше.
Вот так. Серёж, еще раз большое спасибо тебе и всем тем людям, которые откликнулись на других форумах!
И от меня спасиюо за неравнодушие. ))
Эти 4 пользователей(ля) поблагодарили commar за это полезное сообщение:
Все использованные на сайте названия продуктов и торговые марки принадлежат их законным владельцам. При перепечатке или ретрансляции материалов с сервера DrBOBAH.com ссылка на сайт обязательна!