Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Классификация систем распознавания речи.






Классификация по назначению:

• командные системы;

• системы диктовки текста.

По потребительским качествам:

• диктороориентированные (тренируемые на конкретного диктора);

• дикторонезависимые;

• распознающие отдельные слова;

• распознающие слитную речь.

По механизмам функционирования:

• простейшие (корреляционные) детекторы;

• экспертные системы с различным способом формирования и обработки базы знаний;

• вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Разумеется, относительно проще реализовать программу, способную распознавать только ограниченный, совсем неболь­шой набор управляющих команд и символов. Это, например, могут быть цифры от 0 до 9, слова «да», «нет», односложные ко­манды типа «открыть», «закрыть», «выйти» и т. п. Такие про­граммы появились первыми и уже давно применяются в компь­ютерной телефонии для голосового набора телефонного номера или выбора пункта меню. Если в словарь добавить названия букв алфавита, то, в принципе, по буквам можно продиктовать и любое слово или название — например, при заказе билета таким путем можно ввести станцию назначения.

Подобные системы могут похвастаться тем, что распознава­ние происходит без предварительной настройки под конкретно­го пользователя, т. е. они независимы от диктора (speaker-independent). Применение их для получения автомати­ческой справки и генерации запросов к базам данных позволяет компаниям высвободить большое количество сотрудников, обеспечить круглосуточный доступ к информации, причем зачастую появляется возможность дополнительно расширить сферу пре­доставляемых услуг.

Помимо этого, системы с распознаванием ограниченного набора слов могут применяться и для голосового управления компьютером, а через него и другой техникой. Можно предусмотреть и добавление в базу данных индивидуальных макросов пользователя. При ограниченном словаре также легче реализовать систему распознавания слитной речи, характеризующейся отсутствием специальных пауз между словами.

Точность распознавания, как правило, повышается при предварительной настройке на голос конкретного пользователя, причем этим способом можно добиться распознавания даже то­гда когда говорящий имеет дефект речи или акцент. Все бы хо­рошо, но длительное только в том случае, если предполагается индивидуальное применение ПО одним пользователем, в край­нем случае — небольшой группой пользователей, для каждого из которых создается свой индивидуальный «профиль».

Программы для диктовки текстов (еще одно очевид­ное применение функции распознавания речи) первоначально могли понимать только так называемую «раздельную» речь, в которой после каждого произнесенного слова требовалось сде­лать небольшую паузу. Такая манера говорить неестественна — в процессе обычного человеческого разговора интенсивность звука практически никогда не падает до нуля (в этом можно убедиться, разглядывая спектрограммы).

Распознавать диктовку текстов общей тематики, выполняе­мую в манере слитной речи, коммерческие программы научи­лись только в 1997 г. Разумеется, что словарь подобных пакетов обслуживает так называемую общую тематику и охватывает лишь небольшую часть всей лексики. Значительная часть поль­зователей этим словарем не ограничивается и подключает еще специализированные (технические, медицинские, юридические и другие) словари.

Впрочем, на качество распознавания влияет даже манера ве­дения разговора — непринужденную беседу с относительно небольшим количеством используемых лексических единиц запро­токолировать гораздо сложнее, чем размеренный диктант. Про­блема заключается, в основном, в вариативности и наличии большого количества различных смысловых оттенков у самых простых конструкций. Тяжелее всего распознаются короткие слова, в результате по сравнению с многосложными частот ошибок при их обработке несравненно больше.

Серьезнейшая проблема — одно – двухбуквенные слова. За­ставить компьютер различать английские «а» и «an» можно только обращаясь к контексту всей фразы. Расшифровка диктофонных записей, компьютерное стенографирование конфе­ренций и обсуждений — задача, к решению которой создатели ПО для распознавания речи только приблизились. По заявле­ниям разработчиков компаний Dragon Systems, IBM и Lernout& Hauspie, компьютер (при непрерывной диктовке) спо­собен правильно распознавать до 95 % текста, а меж тем из­вестно, что для комфортной работы точность распознавания требуется довести до 99 %.

Требования к оборудованию. Вначале системы для распознава­ния речи реализовывались, как правило, на специализирован­ном оборудовании и соответствующих платформах. В силу того, что требования, предъявляемые к обработке речи в реальном времени, высоки, слабые центральные процессоры были не в силах взять на себя подобную задачу. Основой компьютерного распознавания речи являлось применение предварительной цифровой обработки сигналов на внешних платах. Производите­ли ПО для распознавания речи, даже перейдя на однопроцессор­ные компьютеры, некоторое время продолжали применять спе­циальные звуковые карты и микрофоны. Например, популярная программа KurzWeil Voice недавно требовала в обязательном по­рядке «свою» звуковую карту.

Модульные системы компьютерно-телефонных средств рас­познавания голоса, выполненные в виде плат расширения для компьютера, включают специализированные процессоры циф­ровой обработки звуковых сигналов (Digital Signal Processor или DSP), берущие на себя ряд операций нижнего уровня и позво­ляющие снизить требования к быстродействию основного про­цессора. Например, плата распознавания речи VR/160, постав­ляемая фирмой Dialogic, поддерживает до 16 каналов одновре­менно, причем она прекрасно работает совместно с процессором DX-486. Dialogic выпускает и более мощные четырехпроцессорные платы Antares с большим объемом оперативной памяти.

Работа в зашумленных помещениях также, разумеется, ока­зывает самое негативное влияние на качество распознавания. Каждый микрофон имеет свой особый «профиль», поэтому про­грамму требуется «обучить» не только работе с конкретным пользователем, но и с конкретным оборудованием. Подключенному к компьютеру диктофону тоже потребуется свой «профиль». Специальные микротелефонные гарнитуры поставляются вместе с известными программами распознавания речи — Via Voice Gold корпорации IBM Research, Naturally Speaking Preferred фирмы Dragon Systems и Voice Xpress (Lernout& Hauspie Speech Products).

На работу с диктовочными программами накладываются и дополнительные ограничения. В большинстве случаев трудно обойтись без гарнитуры с микрофоном. Правда, радиомикрофо­ны допускают больший радиус действия, однако для контроля результатов пользователь должен видеть экран ПК.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.