Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Синтезатор русской речи






Рассмотрим разработку «Говорящая мышь» упоминавшегося Клуба голосовых технологий. В основе речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам. Метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спек­тральных характеристик речевого сигнала, а набор правил — возможность формирования естественного интонационно-про­содического оформления высказываний. Существуют и другие методы синтеза, может быть, в перспективе более гибкие, но дающие пока менее естественное озвучивание текста. Это, преж­де всего, параметрический (формантный) синтез речи по прави­лам или на основе компиляции, развиваемый для ряда языков зарубежными исследователями. Однако для реализации этого метода необходимы статистически представительные акустико-фонетические базы данных и соответствующая компьютерная технология, которые пока доступны не всем.

Язык формальной записи правил синтеза. Для создания удобного и быстрого режима изменения и верификации правил, включенных в разные блоки синтезирующей системы, был разработан формализованный и в то же время содержательно прозрачный и понятный язык записи правил, который легко компилируется в исходные тексты программ. В настоящее время блок автоматического транскриптора насчитывает около 1000 строк, записанных на формализованном языке представ­ления правил.

Интонационное обеспечение. Функция разработанных правил состоит в том, чтобы определить временные и тональные ха­рактеристики базовых элементов компиляции, которые при обработке синтагмы выбираются из библиотеки в нужной по­следовательности специальным процессором (блоком кодиров­ки). Необходимые для этого предварительные операции над синтезируемым текстом: выделение синтагм, выбор типа инто­нации, определение степени выделенности (ударности-безудар­ности) гласных и символьного звукового наполнения слоговых комплексов осуществляются блоком автоматического транс­криптора.

Во временной процессор входят также правила, за­дающие длительность паузы после окончания синтагмы (ко­нечной/неконечной), которые необходимы для синтеза связ­ного текста. Предусмотрена также модификация общего темпа произнесения синтагмы и текста в целом, причем в двух ва­риантах: в стандартном — при равномерном изменении всех единиц компиляции — ив специальном, дающем возмож­ность изменения длительности только гласных или только согласных.

Тональный процессор содержит правила формирова­ния для одиннадцати интонационных моделей: нейтральная по­вествовательная интонация (точка), точковая интонация, типичная для фокусируемых ответов на вопросы; интонация предложений с контрастивным выделением отдельных слов; интонация специального и общего вопроса; интонация особых противопоставительных или сопоставительных вопросов; интонация обращений, некоторых типов восклицаний и команд; два вида незавершенности, перечислительная интонация; интонация вставочных конструкций.

Аллофонная базаданных. Необходимый речевой материал записан в режиме оцифровки счастотой дискретизации 22 кГц сразрядностью 16 бит. В качестве базовых элементов компиляции выбраны аллофоны, оптимальный набор которых и представляет собой акустико-фонетическую базу синтеза. Инвентарь базовых единиц ком­пиляции включает в себя 1200 элементов, который занимает около 7 Мбайт памяти. В большинстве случаев элементы компи­ляции представляют собой сегменты речевой волны фонемной размерности. Для получения необходимой исходной базы еди­ниц компиляции был составлен специальный словарь, который содержит слова и словосочетания с аллофонами во всех учиты­ваемых контекстах. В нем содержится 1130 словоупотреблений.

Лингвистический анализ. На основе данных, полученных от остальных модулей синтеза речи и от аллофонной базы, про­грамма формирования акустического сигнала позволяет осуществлять модификацию длительности согласных и гласных. Она дает возможность модифицировать длительность отдельных пе­риодов на вокальных звуках, используя две или три точки тони­рования на аллофонном сегменте, осуществляет модификацию энергетических характеристик сегмента и соединяет модифици­рованные аллофоны в единую слитную речь.

На этапе синтеза акустического сигнала программа позволя­ет получать разнообразные акустические эффекты — такие, как реверберация, эхо, изменение частотной окраски.

Готовый акустический сигнал преобразуется в формат дан­ных, принятый для вывода звуковой информации. Используют­ся два формата: WAV (Waveform Audio File Format), являющийся одним из основных, или VOX (Voice File Format), широко ис­пользуемый в компьютерной телефонии. Вывод также может осуществляться непосредственно на звуковую карту.

Инструментарий синтеза русской речи. Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вслух смешанные русско-английские тексты. Инструмен­тарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синте­за, словарь ударений русского языка, модуль правил произнесе­ния английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступа­ет звуковой файл в формате WAV или VOX, записываемый в па­мять или на жесткий диск.

В табл. 4.2 приводятся характеристики ряда систем синтеза речи.

SSML

Speech Synthesis Markup Language (Язык разметки для синтеза речи) представляет собой основанный на XML язык разметки для приложений, связанных с синтезом речи. Он рекомендован рабочей группой Консорциума WWW по голосовым браузерам (W3C's voice browser working group). SSML часто встраивается в сценарии VoiceXML, чтобы управлять интерактивными система­ми телефонной связи. Однако он также может использоваться самостоятельно, например, для того, чтобы создавать звучащие документы. Известны также и другие аналогичные изделия включая встроенные речевые команды Apple, или SAPI TTS (разработка Microsoft также на базе языка XML).

SSML разработан на базе языка JSML (Sun Microsystems), хотя основные рекомендация были сделаны главным образом производителями синтезаторов речи. SSML охватывает фактиче­ски все аспекты синтеза, хотя некоторые области оставлены не­определенными, и таким образом каждый синтезатор может здесь давать собственную интерпретацию текста (SSML не явля­ется таким строгим стандартом как С или хотя бы HTML ).

Примердокумента SSML:






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.