Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Обобщенная функциональная структура синтезатора






Структура идеализированной системы автоматического син­теза речи состоит из нескольких блоков:

• определение языка текста;

• нормализация текста;

• лингвистический анализ (синтаксический, морфемный и т. д.);

• формирование просодических характеристик;

• фонемный транскриптор;

• формирование управляющей информации;

• получение звукового сигнала.

Такая схема содержит компоненты, которые можно обнару­жить во многих системах. Разработчики конкретных систем уделяют различное внимание отдельным блокам и реализуют их очень по-разному, в соответствии с практическими требова­ниями.

Модуль лингвистической обработки. Прежде всего, текст, под­лежащий прочтению, поступает в модуль лингвистической обра­ботки. В нем производится определение языка (в многоязычной системе синтеза), а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях используются спелчекеры (модули исправления орфографических и пунктуа­ционных ошибок). Затем происходит нормализация текста, т. е. осуществляется разделение введенного текста на слова и ос­тальные последовательности символов. К символам относятся, в частности, знаки препинания и символы начала абзаца. Все зна­ки пунктуации очень информативны. Для озвучивания цифр разрабатываются специальные подблоки.

Преобразование цифр в последовательности слов является относительно легкой задачей (если читать цифры как цифры, а не как числа, которые должны быть правильно оформлены грамматически), но цифры, имеющие разное значение и функ­цию, произносятся по-разному. Для многих языков можно говорить, например, о существовании отдельной произносительной подсистемы телефонных номеров. Пристальное внимание уделяется правильной идентификации и озвучиванию цифр, обозначающих числа месяца, годы, время, телефонные

номера, денежные суммы и т. д. (список для различных языков может быть разным).

Лингвистический анализ. После процедуры нормализации ка­ждому слову текста (каждой словоформе) необходимо приписать сведения о его произношении, т. е. превратить в цепочку фонем или, иначе говоря, создать его фонемную транскрипцию. Во многих языках, в том числе и в русском, существуют достаточно регулярные правила чтения — правила соответствия меж­ду буквами и фонемами (звуками), которые, однако, мо­гут требовать предварительной расстановки словесных ударе­ний. В английском языке правила чтения очень нерегулярны, и задача данного блока для английского синтеза тем самым ус­ложняется. В любом случае при определении произношения имен собственных, заимствований, новых слов, сокращений и аббревиатур возникают серьезные проблемы. Просто хранить транскрипцию для всех слов языка не представляется возмож­ным из-за большого объема словаря и контекстных изменений произношения одного и того же слова во фразе.

Кроме того, следует корректно рассматривать случаи графи­ческой омонимии: одна и та же последовательность буквенных символов в различных контекстах порой представляет два различных слова/словоформы и читается по-разному (например, ранее приведенный пример слова «замок»).

Для языков с достаточно регулярными правилами чтения од­ним из продуктивных подходов к переводу слов в фонемы является система контекстных правил, переводящих каждую букву/буквосочетание в ту или иную фонему, т. е. автома­тический фонемный транскриптор. Однако чем боль­ше в языке исключений из правил чтения, тем хуже работает этот метод. Стандартный способ улучшения произношения сис­темы состоит в занесении нескольких тысяч наиболее употребительных исключений в словарь. Альтернативное подходу «слово—буква—фонема» решение предполагает морфемный анализ слова и перевод в фонемы морфов (т. е. значимых частей слова: приставок, корней, суффиксов и окончаний). Однако в связи с разными пограничными явлениями на стыках морфов разложение на эти элементы представляет собой значительные трудности. В то же время для языков с богатой морфологией, например, для русского, словарь морфов был бы компактнее. Морфемный анализ удобен еще и потому, что с его помощью можно определять принадлежность слов к частям речи, что очень важно для грамматического анализа текста и задания его просодических характеристик. В английских системах синтеза морфемный анализ был реализован в системе МIТа1к, для кото­рой процент ошибок транскриптора составляет 5 %. Особую проблему для данного этапа обработки текста образуют имена собственные.

Формирование просодических характеристик. Кпросоди­ческим характеристикам высказывания относятся его тональные, акцентные и ритмические характери­стики. Их физическими аналогами являются частота основно­го тона, энергия и длительность. В речи просодические харак­теристики высказывания определяются не только составляю­щими его словами, но также тем, какое значение оно несет и для какого слушателя предназначено, эмоциональным и физи­ческим состоянием говорящего и многими другими фактора­ми. Многие из этих факторов сохраняют свою значимость и при чтении вслух, поскольку человек обычно интерпретирует и воспринимает текст в процессе чтения. Таким образом, от системы синтеза следует ожидать примерно того же, т. е. она сможет понимать имеющийся у нее на входе текст, используя методы искусственного интеллекта. Однако этот уровень раз­вития компьютерной технологии еще не достигнут, и боль­шинство современных систем автоматического синтеза стара­ются корректно синтезировать речь с эмоционально нейтраль­ной интонацией. Между тем, даже эта задача на сегодняшний день представляется очень сложной.

Формирование просодических характеристик, необходимых для озвучивания текста, осуществляется тремя основными бло­ками, а именно:

• расстановки синтагматических границ (паузы);

• приписывания ритмических и акцентных характеристик (длительности и энергия);

• приписывания тональных характеристик (частота основно­го тона).

При расстановке синтагматических границ опреде­ляются части высказывания (синтагмы), внутри которых энерге­тические и тональные характеристики ведут себя единообразно и которые человек может произнести на одном дыхании. Если система не делает пауз на границах таких единиц, то возникает отрицательный эффект: слушающему кажется, что говорящий (в ном случае — система) задыхается. Помимо этого, расстановка синтагматических границ существенна и для фонемной транскрипции текста. Самое простое решение состоит в том, чтобы ставить границы там, где их диктует пунктуация. Для наи­более простых случаев, когда пунктуационные знаки отсутству­ют можно применить метод, основанный на использовании служебных слов. Именно эти методы используются в системах синтеза Pro-Se-2000, Infovox-5A-101 и DECTalk, причем в по­следней просодически ориентированный словарь, помимо слу­жебных слов, включает еще и глагольные формы.

Задача приписывания тональных характеристик обычно ставится достаточно узко. В системах синтеза речи пред­ложению, как правило, приписывается нейтральная интонация. Не предпринималось попыток моделировать эффекты более вы­сокого уровня, такие, как эмоциональная окраска речи, по­скольку эту информацию извлечь из текста трудно, а часто и просто невозможно.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.