Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Перспективы систем распознавания речи






Важная задача, которая стоит перед создателями речевых технологий, — выработка единого стандарта на API-интерфейс (Applications Programming Interface), который должен связывать приложения и обеспечивать своевременную передачу управляю­щих функций. Такой стандарт должен не только позволять стро­ить приложения на базе какой-либо распространенной операционной системы, имеющей соответствующие встроенные функ­ции (первой такой ОС стала OS/2 Warp), но и обеспечивать переносимость систем распознавания речи на другие ОС.

ПО для распознавания слитной речи, как правило, не только снабжается собственными текстовыми редакторами, но и спо­собно встраиваться в популярные программы, среди которых MS Word, Excel, Lotus Smart Suite Millennium Edition (Lotus Development) и Word Perfect Suite (Corel).

С другой стороны, производители офисных программ стали включать в состав своего ПО системы распознавания речи, как правило, от IBM (Smart Suite), Dragon Dictate (Word Perfect Suite) или Lernout& Hauspie.

Современные программы распознавания речи для ПК позво­ляют диктовать в обычной разговорной манере. Так называемая дискретная надиктовка с частыми остановками и паузами между словами осталась в прошлом. Однако непрерывный процесс рас­ставания речи, дающий точность до 95 % в оптимальных условиях все-таки дает пять неправильных букв на 100 знаков. Около 200 ошибок на странице формата А4 — слишком много для профессиональной работы.

Несмотря на все достижения последних лет, средства для распознавания слитной речи все же допускают большое количе­ство ошибок, нуждаются в длительной настройке, требовательны к аппаратной части и к квалификации пользователя и отказыва­ются работать в зашумленных помещениях (а это важно как для шумных офисов, так и для мобильных систем и эксплуатации в условиях телефонной связи).

Известно, что спонтанная речь произносится со средней скоростью 2, 5 слов в секунду, профессиональная машинопись — 2 слова в секунду, непрофессиональная — 0, 4.

Таким образом, на первый взгляд, речевой ввод имеет значи­тельное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях снижается до 0, 5 слова в секунду в связи с необходимостью четкого произне­сения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке.

Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже про­фессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому компьютеру. Кроме того, имеющийся опыт эксплуатации подоб­ных систем свидетельствует о высокой вероятности заболевания голосовых связок операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи.

Часто к достоинствам речевого ввода текста относят отсутст­вие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи, — чувствительность к четкости произношения, — приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 1—2 месяца. Постановка правильного произношения может занять несколько лет. Кроме того, дополнительное напряжение, следствие сознательных и подсознательных усилий по достижению более высокой распознаваемости, совсем не способствует сохранению нормального режима работы речевого аппарата оператора и значительно увеличивает риск появления специфических заболеваний.

Существует и еще одно неприятное ограничение примени­мости — оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звукоизолированном отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офи­су, которые, в свою очередь, создавая дополнительный шумо­вой фон, будут значительно затруднять работу речевого распо­знавателя.

Таким образом, речевой интерфейс вступает в явное проти­воречие с современной организационной структурой предпри­ятий, ориентированных на коллективный труд. Ситуация не­сколько смягчается с развитием удаленных форм трудовой дея­тельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг приме­нения. Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений за­ставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложе­ний за пределами традиционной офисной сферы, что подтвер­ждается коммерческими успехами узкоспециализированных ре­чевых систем.

Парадоксально, но самый успешный на сегодня проект коммерческого применения распознавания речи — телефонная сеть фирмы АТТ. Клиент может запросить одну из пяти катего­рий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.