PDA

Просмотр полной версии : В ташкентском университете информационных технологий создана компьютерная программа для распознания речи в реальном времени


Erkin Kuchkarov
18.11.2007, 01:24
Что-то не верится. Кто нибудь может подтвердить\опровергнуть данную информацию?
Подробностей мало (http://press-uz.info/index.php?title=actual&nid=2464&my=112007). Но как программисту занимавшемуся именно данной тематикой хотелось бы получить более полную информацию.

Georgick
18.11.2007, 02:08
скорее всего так и есть.
Есть такая бесплатная штука у Майкрософт
Microsoft Speech API SDK (http://www.microsoft.com/downloads/details.aspx?FamilyID=7D13964C-06FD-4BF9-B49C-814FAA6A86EA&displaylang=en)
А примеров как сделать на основе нее свою программку распознавания речи с написанием нескольких десяток строчек кода в интернете - масса.
Буду рад, если меня кто-то поправит и скажет, что в программе использовано что-то новое.

Erkin Kuchkarov
18.11.2007, 02:31
Вполне возможно, но верится с трудом, тем более что SDK который Вы привели в качестве инструментария не распознает речь ни на русском ни на узбекском :)
Однозначно и категорично распознать речевую команду не просто сложно, нам (команде разработчиков) пришлось выполнить задачу коррелируя ошибки при помощи технологии распознавания образов (движения лицевых мускулов, зрачков глаз) и технологию использующую морфологический и симантический анализ языка.
В идеале должна была получится система управления боем (боевым комлексом). Но не получилось. Все вышло слишком громоздко и неповоротливо. Но на эти исследования было затрачено такое количество денег....

Erkin Kuchkarov
18.11.2007, 02:41
"Программа предназначается для обработки речевых сигналов в реальном времени в различных системах контроля и управления производством, радионавигацией и управления воздушным движением в аэропортах."
А мне в москву лететь... и обратно лететь... а может еще внедрить то не успели?

Meylikulov Olim
18.11.2007, 03:27
может такая же система распознования речи как и на мобильниках?

чёт РУз прогрессирует в последнее время=)

Erkin Kuchkarov
18.11.2007, 04:02
может такая же система распознования речи как и на мобильниках?
А какая на мобильниках? На основе нейронных сетей?

Georgick
18.11.2007, 04:10
Вполне возможно, но верится с трудом, тем более что SDK который Вы привели в качестве инструментария не распознает речь ни на русском ни на узбекском :)


Есть такая штука Microsoft Agent (http://www.microsoft.com/msagent/downloads/developer.aspx) с синтезатором русской речи в том числе, и существующим SDK и все это беслпатно
Работает все на том же встроенном в Windows MS SAPI 5.x
Кстати, по поводу распознавания узбекского языка пока нигде еще не было написано. А про качество распознавания - тем более.

Georgick
18.11.2007, 04:14
А какая на мобильниках? На основе нейронных сетей?

скорее всего.
Основная масса синтезаторов работает на основе нейронных сетей

Erkin Kuchkarov
18.11.2007, 04:23
Ок, гадать не будем

Erkin Kuchkarov
18.11.2007, 04:43
Есть такая штука Microsoft Agent с синтезатором русской речи
Стоп... с этого момента поподробнее... Мерлин будет озвучивать текст или распознавать?

Erkin Kuchkarov
18.11.2007, 04:48
Кстати, по поводу распознавания узбекского языка пока нигде еще не было написано. А про качество распознавания - тем более.

"Программа предназначается для обработки речевых сигналов в реальном времени в различных системах контроля и управления производством, радионавигацией и управления воздушным движением в аэропортах."
То есть я понимаю так что начальник цеха вякнул в микрофон, а на жидкокристаллическом дисплее токарного станка появилась распознанная речь этого руководителя производством на языке на котором токарь может воспринять. А это либо русский матерный либо узбекский матерный... а мерлин (по Вашему) будет это воспроизводить жестами. :) Хочу смотреть :)

Meylikulov Olim
18.11.2007, 10:15
ненаю какие там сети, но у Нокии заранее надо записать свой голос.
На мобильниках компании Веризон, точнее на их прошивках, можно разговарить с роботом в прямом смысле слова. Команды хавает только на инглише. Но в целом гуд.

Efim Kushnir
18.11.2007, 11:18
То есть я понимаю так что начальник цеха вякнул в микрофон, а на жидкокристаллическом дисплее токарного станка появилась распознанная речь этого руководителя производством на языке на котором токарь может воспринять. А это либо русский матерный либо узбекский матерный... а мерлин (по Вашему) будет это воспроизводить жестами. Хочу смотреть
Честно говоря, я с самого начала не понял, для чего это сделано, а после этой фразы вообще растерялся...
Где смысл этого изобретения и почему я этого не понимаю?
Судя по описанию на сайте PRESS-UZ (http://press-uz.info/index.php?title=actual&nid=2464&my=112007) это просто магнитофон.
Единственное применение, которое сейчас мне явно видится - бумажные отчеты по различным беседам :-)

Georgick
18.11.2007, 11:32
с помощью SDK для MSAgent можно в обе стороны распознавать.
Конечно, все равно результат далек от идеала, но хоть разобрать можно.

Ну, а раз на мобильники надо записывать заранее голос - то, это, конечно, не работает на основе нейронных сетей. Это получается некоторая база данных звуков создается и все. Такой вариант подходит для ограниченного набора фраз (озвучивание меню софта, и т.д)

Eldar Fattakhov
18.11.2007, 11:37
Эркин уже описывал один частный случай - заводской. Мне кажется, что очень тяжело услышать связный текст. Может быть имеется в виду не распознавание речи, а распознавание звуков?

Вспомнился анекдот про Брежнева:

"О! О! О! О! О!"
"Это олимпийская символика, Леонид Ильич..."

Meylikulov Olim
18.11.2007, 15:16
Ну, а раз на мобильники надо записывать заранее голос - то, это, конечно, не работает на основе нейронных сетей. Это получается некоторая база данных звуков создается и все. Такой вариант подходит для ограниченного набора фраз (озвучивание меню софта, и т.д)
это у нокии нужно заранее записывать. У Веризона без разницы кто говорит.

Khabibulin Damir
18.11.2007, 19:16
У меня моторолла тоже сама распазнает имена, я ничего не записывал.