Распознавание речи

⇐ ПредыдущаяСтр 13 из 20Следующая ⇒

Кроме информирования оператора голосовая система должна быть способна распознавать его ответы. Чтобы завершить информационный цикл, оператор должен ответить голосовому компьютеру, что он получил и понял команду. На коммерческом предприятии, где производительность и точность жизненно необходимы, очень важно, чтобы голосовая система распознавала произнесенное слово или фразу с первого раза и без ошибок. Чтобы обеспечить это, лучше всего выбирать систему, способную распознавать всевозможные человеческие голоса – мужские и женские, тихие и громкие, с различными акцентами, а кроме того, надежно проверенную в условиях реальной эксплуатации. В настоящее время на рынке предлагаются системы распознавания речи двух типов, преобразующие человеческую речь в информацию, понятную компьютеру: системы распознавания конкретного говорящего и системы, распознающие любого говорящего.

Системы распознавания конкретного говорящего обычно вдвое точнее систем, распознающих любого говорящего. Поэтому первые более предпочтительны для применения в промышленных целях. Голосовые системы, распознающие конкретного говорящего, следует обучать голосу каждого оператора. Операторы надевают головные телефоны и по указанию голосовой системы произносят ряд цифр, слов и команд. Подобным образом голосовая система обучается понимать голос конкретного человека, характеристики которого регистрируются и запоминаются. Вся процедура регистрации каждого образца голоса со стандартным набором слов выполняется только один раз и занимает приблизительно 20 минут.

Перед началом рабочей смены оператор подключает головной телефон к голосовому компьютеру на поясе и идентифицируется в компьютере. Если образец голоса оператора еще не записан в «памяти» поясного компьютера, он загружается быстрее чем за минуту из главного компьютера. Характерным примером является система Voice-Directed Distribution™ компании Vocollect (г. Питтсбург): благодаря индивидуально записанным образцам голоса она позволяет преодолевать языковые барьеры, характерные для многонациональных рабочих коллективов складов.

Системы распознавания любого говорящего, например такие, которые используются в управляемых голосом справочных системах, способны «понимать» любой голос и не нуждаются в «обучении» речи каждого оператора. Однако по опыту общения с телефонной справочной службой известно, что такая система гораздо чаще «ошибается»: если вы спрашиваете телефонный номер «Иванцова», но выговариваете имя нечетко, тогда система может ответить: «Вы ищете номер Иванова?» Или вы спрашиваете: «Ворожков», а система «понимает» это слово как «Творожков».

Технология распознавания любого говорящего в настоящее время широко применяется, но не рекомендуется для эксплуатации в динамично работающем складском комплексе. Основным недостатком ее является то, что на первый взгляд кажется преимуществом: она распознает речь любого оператора на основании некого общего виртуального образца, а потому не способна различить в речи операторов тонких оттенков различных акцентов и других особенностей речи. Такие системы будут просить оператора повторять слова, что снижает производительность и мешает работе, особенно когда это происходит постоянно в течение 8...10 часов в день.

Системы со словарями большого и малого объема. Оценивая трудоемкость обучения голосовой системы распознавать речь каждого оператора, следует ответить на вопрос: скольким словам нужно обучить голосовую систему, чтобы она могла нормально работать? Существует два подхода к решению этой важной задачи: использование в системе словаря большого или малого объема.

Как видно из названия, системы со словарем малого объема обучаются распознавать очень ограниченное число слов, поскольку в складских работах одни и те же операции чаще всего повторяются (подбор заказа, пополнение складских запасов, расстановка товаров по местам). Лексикона приблизительно из 100 слов обычно бывает достаточно. В этой сотне основная группа, примерно 20 слов, используется наиболее часто. Из них и составляются все команды на выполнение работ, которых достаточно для ежедневной деятельности большинства складских комплексов. К тому же «привилегированные» пользователи, наделенные правом изменять настройки системы, могут вносить собственные коррективы: добавлять в словарь новые слова, необходимые для работы, и удалять ненужные.

Системы со словарем большого объема обычно «знают» более тысячи слов. Такой системе сложнее отличить одно произнесенное слово от другого, и поэтому ее точность меньше. Например, когда оператор произносит «вода», система может «услышать» слово «да» или «туда». Когда лексикон системы состоит всего лишь из 100 слов, ей проще распознать знакомое слово и не ошибиться. Такая система работает точнее и гораздо быстрее обрабатывает информацию.

Скорость общения с оператором имеет очень большое значение для работы, особенно если из-за запаздывания снижается производительность. Во время складских работ потеря даже нескольких драгоценных секунд на каждой из тысяч команд, получаемых оператором в течение рабочего дня, оборачивается немалыми убытками. Кроме того, система со словарем малого объема нуждается в небольшой памяти.

Из вышесказанного мы видим, что голосовая система со словарем малого объема способна обеспечивать всю деятельность склада, быстрый поиск информации и высокую точность. В свою очередь использование систем со словарем большого объема имеет незначительные преимущества, но с большой долей риска они могут работать неточно, поэтому их не рекомендуется применять на современных складах.

⇐ Предыдущая 8 9 10 11 121314 15 16 17 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.