Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Актуальні проблеми та напрями комп’ютерної лінгвістики (машинний переклад, автоматична обробка природної мови, автоматичне анотування, реферування, моделювання спілкування тощо).






Перший клас об’єднує фундаментальні проблеми, пов'язані із представленням і моделюванням мовної системи, тезаурусів знань, із комп'ютерною репрезентацією граматики й рольової структури висловлень в автоматичних системах, із взаємодією вербаліки й невербаліки, мовних і фонових знань у комунікації, із метафоричним моделюванням і процесами розпізнавання повідомлень тощо. Програма «Еліза» (1966) встановила, що: природно мовний дискурс є дуже стійким до різних мовленнєвих сбоїв; принцип пріоритету метакомунікаці; існування різних типів комунікативних ролей між людьми.

Підклас – моделювання структури сюжету:

1) Морфологія – В. Пропп – фантастична казка, ідеї стали основою прграми «Тейл» - послідовність функцій персонажа;

2) Синтаксис – теоретична основа – сюжетна граматика 70 Хомського; текст зізнання злодія – детективний сюжет.

3) Когнітивний підхід – у 80-х рр.. В. Ленерт – формалізм афективних сюжетних одиниць. Сюжет – це зміна когнітивно-емоційних станів персонажа, у яких закладено бінарні відношення (мотивація – актуалізація; каузальний зв'язок, еквівалентність).

Другий клас охоплює суто лінгвістичні проблеми штучного інтелекту: розпізнавання й синтез мовлення, тексту; розробка метамов і мов репрезентації знань, лінгвістичних процесорів, здатних, опрацьовувати тексти у стандартний спосіб для будь-якої системи перетворення мовної інформації: інтелектуальних інтерфейсів, баз даних, моделювання діалогу тощо.

До третього класу проблем Ю. Городецький відносить лінгвістичне забезпечення різних прикладних систем оброблення письмового тексту, автоматичного анотування (упорядкування стислих відомостей про документ) індексування (перекладу на інформаційно-пошукову мову), редагування (виправлення помилок) й реферування (стислого викладу змісту, документа), перекладу, аналізу запитів користувача природною мовою до інформаційної системи, інтелектуальних машинних словників, машинних фондів мовних одиниць природномовного інтелектуального інтерфейсу, а також моделювання дослідницької лінгвістичної діяльності. автоматизованих робочих місць лінгвіста.

АКТУАЛЬНІ ПРОБЛЕМИ ТА НАПРЯМИ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ
МП - виконувана комп. операція з перетворення тексту однієї природної мови у еквівалентний за змістом текст ін. прир. мовою. 1947 рік американські фахівці Уівер та Буг дійшли думки про можливості технічного здійснення МП. Цього ж року розробл. прогр послівного перекладу (дослівник). 15.07.49 опубліковано знамениту статтю Уівера «Переклад», більш відомк серед лінгвістів як «Меморандум Уівера». У ній коротко викладені суть, завдання механ. сист. перекл.. 1954 – написана перша програма рос-англ перекл. (60 фраз). 1955 у СРСР теж провод. роботи з МП під керівн. Кулагіної та Мельничука. 1957 – перший збірник праць з МП у Москві. 1959 – лабораторія у Моск. педагог. і-ті іноз.мов ім.. М.Тореза. У СРСР створ.ряд потужних сист МП під керівн Марчука вровадж системи: АМПАР(анг-рос), НЕРПА(нім-рос). Також розроб СМП в ін країнах світу переважно для тех. та комерц потреб. На сучасному етапі практика систем МП показує, що 20% речень вихідного тексту перекладається неправильно. Причинами такої низької якості є недоліки словника і слабкий алгоритмічний синтез речень з неправильною синтаксичною структ. За характером перекладацької діяльності розрізн усний та письмовий переклад. Усний – синхронний(запізн. не б.10 сек.) та послідовний(перек-ч може прослух фрагмент до 15 хв. та перекл. основні полож). Письмовий: послівний (текст подається як послідовн.слів, кожне з яких має свою цінність), буквальний (розгл.текст як послід речень), філолог. (максим наближу читатча до автора, правильність і точність передачі художніх особливостей автора(складності-діалекти, жаргони, істор.зміни в мові)), адаптивний (передб скорочення оригіналу і формув з нього найважливішої інформ. тобто створ реферату(анотації) ін. мовою). За к-стю мов: одностор – з мови джерела, двосторон.- з мови джерела на іншу мову і навпаки. Помилки МП, що потреб втруч людини: неперекладні слова, неврах полісемії чи стиліст марков одиниці, послівний перекл. ідіом, помилки при перекладі прийм, порушення узгодження та керування, помилки в перекл. конструкцій. Компютерні засоби перекладу: 1) Мп без втручання людини; 2) Людино-маш переклад: людський і МП; МП і людський; 3) термінологічна БД (багатомовні словники, що легко модифікуються та дозволяють фіксувати останню словникову інформацію). Періодизація стратегій МП: 60- прямий (словникові еквіваленти – «Джет» 1952, СШа, рос-англ тексти з фізики); 70 – трасферт – етап міжмовних операцій; побудова проміжного представлення, адаптація до структури вихідної мови («Таум» - 1965, агнл-фр, Монреаль); 80 – мова-посередник: аналіз – вхідна, 0 синтез – вихідна («СіІТіЕй – рос-франц, Франція, 1961 – 1971); універсальна семантична мова – у перспективі; звуження проблемної області – орієнтація на вузькі тематичні сфери текстів.
АОПМ загал теоретичних та прикладних напрямків лінгвістики, позв'язаних із комп'ютерним опрацюванням текстів до них належать, зокрема-дослідження та моделювання механізмів аналізу та синтезу речень, - створення моделей та систем автоматичного перекладу, автоматичного реферування, документального інформаційного пошуку, розуміння природної мови, - створення лінгвістичних процесорів, здатних опрацьовувати тексти у стандартний спосіб для будь-якої системи перетворення мовної інформації, - розроблення систем автоматичного редагування орфографії, - побудова машинних фондів національних мов, - створення комп'ютерних граматик як навчальних знарядь або інструментів спеціального опрацювання фраз, - створення автоматичних словників, термінологічних банків, лінгвістичних баз даних тощо. центральним компонентом автоматичної обробки мови є автоматичний аналіз різноманітних мовних структур; специфіка алгоритму автоматичного аналізу в кожному конкретному випадку визначається типом лінгвістичного завдання (інформаційний пошук, машинний переклад, діалог із комп'ютером природною мовою, автоматичне реферування, вилучення знань з тексту тощо), конкретною метою та типом оброблюваної мовної конструкції
Авт. анотув. та рефер. Реферув.- вид аналітико-синтетичного опрацювання текстів документів, у процесі якого генерують короткий текст (близько 1000 знаків), що передає основний текст документа. Для великих текстів (книг) обсяг реферату може сягати 2500 знаків. Анотув. – Вид аналітико-синтетичного опрацювання текстів документів, у процесі якого генерують короткий текст (бл. 600 знаків), що характеризує зміст, форму, цільове та реципієнтське призначення документа. Зазвичай анотацію супроводжує бібліографічний опис документа. Реферати та анотації є вторинними документами. У вторинних документах можна виділити два блоки інформації: змістовний (містить інформацію самого першоджерела - про що книга); документографічний (дані про саме першоджерело - тип документа, вид, рік видання, місце видання тощо). Реферування та анотування є досить складними видами інтелектуальної діяльності. Складання їх людиною потребує багато часу. Тому для їх складання сьогодні застосовують комп'ютер. Це наз. автоматичним реферуванням та анотуванням. За способом виділення з вихідних текстів ключових сл/сп та речень розрізняють декілька методів автоматичного реферування та анотування. Найбільш відомі з них три групи методів: Сутність статистичних методівполягає в тому, що: ключовими вважаються такі слова, що з урахуванняи синонімів зустрічаються в тексті найбільшу к-сть разів; ключовими реченнями вважаються такі, які - або мають в своєму складі кілька ключових слів або містять ключові слова на невеликій відстані одне від одного. Приналежність слова, сл/сп або речення до ключових визначаються спеціальними коефіцієнтами. У позиційнихметодах ключовим вважається речення, що входить до назви заголовків, є на початку або в кінці всього тексту або його частин. Логіко-семантичні методи спираються на дослідження структури та семантики текстів. їх мета - виділити з конкретного тексту речення з найбільшою функціональною вагою. Формулюючи задачу побудови системи автоматичного анотування та реферування, необхідно чітко вказати: метод, що застосовується для виділення ключових слів речення; спосіб виділення ключових словосполучень; критерій виділення ключових речень; тип анотації, що готується: текстова або таблична; тип реферату, що формується: текстовий або табличний.
Модел. спілк. напрям КЛ, пов'язаний із моделюванням спілкування людини з ЕОМ засобами природної мови. Комп.моделі спілкування часто використовують для вивчення самого процесу спілкування. Однією з найбільш цікавих комп.моделей діалогу була програма Дж.Вайценбауема «Елайза», перший варіант якої з’явився 1966 року. Перспективи: дослідження способів генерування монолог та ділог текстів, дослідження композиційної будови монологічних текстів, створення сценаріїв моно- і діалогічних текстів, створення систем генерування текстів.

Системи автоматичної обробки тексту (загальні принципи створення систем автоматичної обробки тексту, приклади систем автоматичної обробки тексту, лінгвістичні процесори та принципи їх будови).

Одним із головних прикладних напрямів комп. лінгв. є автоматична обробка природної мови, що передбачає створення, перетворення й аналіз текстів із застосування природної або штучної (копм.) мов, результатом чого може бути формування машинних фондів національних мов, автоматичних словників, термінологічних банків, копм. картотек, баз даних, тощо.

АОПМ складається із трьох блоків: 1) діалоговий компонент (на глобальному рівні – задача; на тематичному – вибір конкретної проблеми; на мовленнєвому – послідовність мовленнєвих актів учасників); 2) блок розуміння – аналіз та інтерпретація; 3) блок породження – синтез. Аналіз і синтез текстів здійснюється на базі лінгвістичних процесорів - програмно-лінгвістичних комплексів багаторівневого типу, орієнтованих на граматичний, семантичний або когнітивний аналіз, синтез і перетворення текстової інформації та діалог із користувачем.

Лінгвістичний процесор можна представити як сукупність трьох основних блоків. На вході - текст (він може бути різним, наприклад, з якого-не-будь текстового файлу). Перший блок лінгвістичного процесора - це попередня обробка тексту, другий блок - пофразова обробка, третій - послівна обробка тексту. На виході цих блоків - розмічений фонемний текст.

Розглянемо послідовно ці три блоки.

Перший блок полягає в попередній обробці тексту, у його нормалізації, у приведенні тексту до канонічного вигляду. Блок попередньої обробки тексту виконує такі операції: - операцію очищення тексту від службових знаків, які не мають відношення до мови (знак переносу рядка, табличні знаки і т.д.), що перетворює текст на екрані у нормальний орфографічний текст; - операцію перетворення різних скорочень і абревіатур у лінійний текст (наприклад: скорочення «і т.д.» перетвориться в «і так далі», абревіатура «СНД» у «ес єн де», «США» - у «ес ша а», або, якщо знадобиться, абревіатури розшифруються цілком, тому що синтезатор без попередньої обробки прочитає їх як «снг», «сша» і «фрг»); - операцію перетворення «число - числівник», тобто правила перетворення чисел у їхнє орфографічне представлення (наприклад: число 28 453 перетвориться в числівник «двадцять вісім тисяч чотириста п'ятдесят три»). Щоб синтезувати вимову будь-якого числа, потрібно не менше ста базових слів, таких, як «тисяча», «тисяч», «сто», «ста» і т.д.);» операцію перетворення формул (математичних, фізичних, хі­мічних і т.д.) у їхнє орфографічне представлення.
Другий блок полягає у просодичній розмітці тексту. Тут ми маємо на вході нормалізований текст, і далі здійснюється пофразова обробка цього тексту. У нормалізованому тексті є тільки букви і розділові знаки, немає ні чисел, ні формул, ні скорочень, ні абревіатур. Відбувається членування цього тексту на фонетичний період, фрази і синтагми. Фонетичний період - це такий відрізок тексту, що починається з рядка, який називають абзацем. Звичайно при усному мовленні найбільшою ділянкою мовлення, що хоч якось одноманітно оформ­лена, є абзац, хоча існуючі синтезатори до абзацу часто не доходять, а обмежуються тільки фразами. Проте звичайний текст береться і прочитується від абзацу до абзацу. Далі цей текст розбивається на фрази. Фрази найчастіше відповідають реченням, хоча це не завжди так. Тому друге завдання — членування на фрази — досить просте в першому наближенні. Більш складним є завдання членувати на синтагми (інтонаційно-смислова єдність, мінімальна інтонаційна одиниця мовлення, що виражає у певному контексті одне поняття і може складатися із одного слова, словосполучення і цілого речення) чи членувати фрази на менші сегменти (якщо це необхідно, тому що фраза може складатися тільки з однієї синтагми). Під синтагмою розуміють елементи фрази, що мають певну самостійність у сенсі просодики, тобто певну ритмічну структуру, певну інтонаційну структуру, і які в принципі передбачають деяку паузу після того, як вони були вимовлені. Усі розглянуті процедури не є сталими і тому важко алгоритмізуються. Дві різні людини можуть прочитати той самий текст зовсім по-різному. Художнє читання - це особливий вид мистецтва. Синтезатори поки що недосконалі читці.
Третій блок блок послівної обробки тексту. Цей блок може вже звертатися не до всієї фрази, а індивідуально до кожного окремого слова. Спершу здійснюється розміщення словесних наголосів. В українській мові для того, щоб проставити наголос, необхідно мати словник наголосів. Це означає, що потрібно мати повний словник мови, якщо система претендує бути системою синтезу мовлення за текстом необмеженого словника, тобто потрібно зберігати в словнику майже 100 тисяч основних словоформ, а також десятки їхніх модифікацій. На сьогодні це завдання цілком не може бути вирішеним. Уже зараз наявні такі словники, зокрема, у комп'ютерних системах для перевірки правильності правопису і виправлення граматичних помилок. Після того як будуть проставлені наголоси в кожному слові тексту, ці наголоси потрібно промаркувати. Маркування наголосів необхідне тому, що одні слова можуть мати повний (сильний) наголос, інші - слабкий (частковий) наголос, деякі слова, наприклад, прийменники і частки, взагалі не мають наголосу. Тому, спираючись на той словник, потрібно промаркувати окремі слова певним типом наголосу. У найпростішому випадку будемо виділяти повний наголос, частковий і відсутність наголосу (ненаголошені слова). Після маркування наголосів можна приступити до об'єднання слів у фонетичне слово. Ця процедура полягає в об'єднанні ненаголошених слів зі словами, у яких є наголос, тобто в об'єднанні повнозначних слів з їх прийменниками, частками і сполучниками.

* Приклади програм - TALE (початок, сюжет, герої, їх характеристики, описи - потім збирає всю інформацію і моделює продовження казки); ELIZA.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.