Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Системы автоматического перевода






Рассмотрим вкратце характеристики некоторых из таких сис­тем, предназначенных для достижения максимальной скорости обработки больших потоков информации.

Скорость перевода страницы текста у разных систем состав­ляет от 0, 5 до 2 с в автоматическом режиме. Полученный в ре­зультате текст в большинстве случаев понятен сразу. Поэтому, потратив какие-то минуты на осознание информации, пользова­тель может сразу сохранить документ для более тщательного изу­чения.

Основными поставщиками подобных систем в настоящий момент являются московская компания «Арсеналъ» и санкт-петербурская «ПРОМТ».

Одним из продуктов «Арсеналъ» является переводчик «СОКРАТ». Данная система поставляется в комплекте с обще­лексическим, коммерческим и компьютерным словарями. Данная база составляет 95 % требуемого словарного запаса для тек­стов, которые существуют в электронном виде. Отдельно сущест­вует 9 дополнительных подключаемых к системе «СОКРАТ» словарей специализированного назначения, среди которых сло­вари по медицине, машиностроению, юриспруденции и др.

Интерфейс представляет собой два окна, одно из которых содержит текст оригинала, а в другом появляется перевод. Из­вестны версии «СОКРАТа», понимающие соответственно анг­лийский, немецкий и французский языки. Перевод в любом случае является двухсторонним, т. е. можно переводить не только с иностранного языка на русский, но и наоборот.

Компания «ПРОМТ» давно специализируется на производстве языковых систем. Системы перевода STYLUS 2.xx и 3.хх известны пользователям Windows. «PROMT» также комплектуется общелексическим и компьютерным словарями. Однако основной особенностью данной программы является наличие гораздо большего количества подключаемых словарей. Их число составляет на данный момент несколько десятков. Существуют четыре коллек­ции или подборки словарей — наука, коммерция, техника и про­мышленность. Каждая из коллекций содержит от 5 до 10 словарей определенной направленности. Например, коллекция «Коммер­ция» содержит словари «Коммерческий», «Информатика» и «Юридический», причем для всех возможных языковых пар.

Системы автоматического перевода Promt иXT-Diamond. Данные системы являются довольно типичными для рынка программных продуктов РФ и обеспечивают следующие возможности:

• ручной выбор и настройку словарей предметной области;

• пополнение словарей пользователем;

• автоматическое определение предметной области, при не­обходимости;

• выборочный или полный перевод текстового файла;

• редактирование оригинала и результата перевода.

На рис. 4.16—4.19 приведены примеры некоторых экранов данных систем, иллюстрирующие их возможности.

В табл. 4.4 приведен пример исходного и результирующего технического текста при автоматизированном переводе различ­ными системами, из которого видно, что несмотря на несомнен­ные успехи в данной области, технология все еще имеет опреде­ленные резервы для своего совершенствования.

Еще одна тенденция последних лет — слияние речевых тех­нологий с лингвистическими. Показателен пример L& H, ставший действующим лицом в области машинного перевода с момента приобретения фирмы Mendez в 1996 г. После этого к L& H присоединились AILogic Corp. и NeocorTech (специализировавшиеся на машинном переводе с английского на японский и с японского на китайский и обратно), германская фирма Heitmann Group и, наконец Globalink. Новая версия известной программы-переводчика Power Translator Pro фирмы Globalink вышла уже под маркой L& H.

Продукция L& H поддерживает в общей сложности 25 языков. Однако еще эффектнее выглядит программа Universal Translator фирмы LanguageForce (США). Серия Universal Translator включает четыре системы машинного перевода, работающие с MS Office, имеющие функции распознавания/синтеза речи и проверки орфографии; при этом Universal Translator 2000 Professional переводит с 40 языков: арабский, китайский (упро­шенный и традиционный варианты), чешский, датский, нидер­ландский, английский британский и американский, эсперанто, фарси, финский, французский (канадский и европейский вари­анты), немецкий, греческий, иврит, венгерский, итальянский, индонезийский, латинский, японский, корейский, норвежский, польский, португальский (бразильский и европейский вариан­ты) румынский, русский, словацкий, испанский (латиноамери­канский и европейский варианты), суахили, шведский, тагаль­ский, тайский, турецкий, украинский, вьетнамский, зулусский. Для Universal Translator 2000 Professional объявлена возможность перевода в любом направлении для любой языковой пары. Не­трудно подсчитать, что число таких пар составляет 1560. Кроме того, программа записывает текст под диктовку, читает вслух и проверяет грамотность написанного. Вместе с переводчиком поставляются две обучающие игры Space Attack и WortTris, кото­рые должны, по-видимому, окончательно сразить потребителя и конкурентов.

Лингвистический анализ текста — обязательная стадия про­цесса автоматического ввода текста под диктовку. Без этой ста­дии современное качество распознавания не могло бы быть достигнуто, и многие эксперты связывают перспективы речевых систем именно с дальнейшим развитием содержащихся в них лингвистических механизмов. Как следствие, речевые техноло­гии делаются все более зависимыми от языка, с которым работа­ют. В сфере распознавания слитной речи зависимость стала аб­солютной, что подтверждается, в частности, отрицательным опытом локализации программного пакета фирмы Dragon Systems для русского языка (имеется в виду система «Горыныч», показавшая объявленного качества распознавания). Однако и других областях работы с речью, включая TTS и даже механизмы редактирования и сжатия, специфика языка все более дает себя знать. Следовательно распознавание, синтез и обработка русской речи являются той нишей, занять которую должны именно российские разработчики.

Контрольные вопросы

1. Перечислите основные принципы распознавания символов (OCR)

2. Что такое OCR А и OCR В?

3. В чем заключается содержание метода сопоставления с образцом?

4. Перечислите основные особенности метода POWR.

5. Каковы возможности программного продукта Finereader?

6. Что такое принципы IPA?

7. В чем заключается MDA?

8. Что такое бинаризация изображения?

9. Какие типы классификаторов-распознавателей вам известны?

10. Перечислите основные принципы систем распознавания речи (STT).

11. Охарактеризуйте программные продукты STT.

12. Перечислите основные принципы систем генерации речи (TTS).

13. Охарактеризуйте программные продукты TTS.

14. Назовите основные принципы систем автоматизированного перевода.

15. Что такое фразеологический машинный перевод?

16. Какова структура машинного словаря?

17. Назовите возможности системы машинного перевода Promt.

18. В чем заключается интеграция систем перевода и обработки речи?

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.