Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Методы автоматического аннотирования и реферирования текста. Статистический метод.






Методы автоматического аннотирования и реферирования текста.

1. Статический

2. Позиционный

3. Логико-семантический

Статический метод.

В этом методе ключевое слово – это знаменательное слово текста, которое с учётом его синонимов встречается наибольшее число раз. Ключевое предложение – это предложение исходного текста, которое: а) имеет несколько ключевых слов; б) ключевые слова находятся на небольшом расстоянии друг от друга. Принадлежность слова к числу ключевых определяется специальным коэффициентом важности.

Задача: используя для выделения ключевых слов текста из вариантов статического метода, а именно коэффициент важности равен: Кважн. = F*m/N*n (где F – частота употребления слова в тексте; m – число абзацев, в которых встретилось слово; N – количество слов в тексте; n – количество абзацев в тексте), составить алгоритм, позволяющий получить:

а) аннотацию текста в виде релятора со следующими за ними ключевыми словосочетаниями. (Ключевое словосочетание – это имя существительное со стоящим перед ним определением, выраженное прилагательным или причастием);

б) словесный реферат текста в виде последовательной цепочки ключевых предложений (содержит три и более ключевых слов).

Словоупотребление – это цепочка буквенных символов, находящихся между двумя знаками пробелов. Словоформа – это словоупотребление, находящееся вне предложения. Слово (лексема) для компьютера – несколько словоформ, имеющих одно и то же лексическое значение. Предложение с точки зрения ПК – это цепочка словоупотреблений, заключённых между двумя знаками конца предложения.

Алгоритм решения задачи:

1. ПК по каждому абзацу текста составляет алфавитно-частотный словарь

2. алфавитно-частотные словари объединяются в единый распределительный словарь словоформ всего текста

3. машина проводит чистку словаря, сжимает его до словаря потенциально ключевых слов:

ü удаляется вся служебная и общеупотребительная лексика

ü объединяет все грамматические форма одного и того же слова

ü удаляет слова, которые встретились только в одном абзаце

ü объединяет синонимы

4. словарь потенциальных ключевых слов делится на: а) словарь главных опорных слов; б) второстепенных слов

5. строится аннотация, которая составляется из слов-реляторов и следующими за ними ключевыми словами-сочетаниями (из списка главных опорных слов)

6. строится реферат из главных и второстепенных опорных слов (просматривая исходный текст, ПК извлекает из него предложения, содержащие три и более опорных слова).

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.