Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Оценка надежности частотного словаря.






Как уже было сказано, частотные словари строятся либо на сплошном, либо на выборочном исследовании текста. Если частотный словарь построен выборочным путем, возникает вопрос, насколько получаемая статистическая я модель отражает свойства своего оригинала — в нашем случае распределены вероятностей исследуемых лексических единиц.

Ответ на этот вопрос можно получить, оценив надежность нашей модели, для чего используются не только математические, но и чист лингвистические приемы.

В частности, встает вопрос о качестве организации выборки текстов, т. е. о том, насколько стиль и тематика отобранных для статистического исследования текстов отвечают стилистика - тематическом своеобразию исследуемой разновидности языка.

Если тематические пропорции выборки соответствуют пропорциям тем в оригинале, то выборку можно считать репрезентативной. Это означает, что выборочное распределение изучаемого лингвистического признака будет достаточно близко к его распределению в генеральной (гипотетической, теоретической) совокупности. В качестве иллюстрации рассмотрим организацию выборочного отбора текстов для составления частотного словаря лексики русских газет.

Сначала весь газетный материал, включающий 500 номеров четырех газет, был распределен по жанрово-тематическим разделам. Из этих разделов было отобрано произвольно около 1090 статей, которые образовали экспериментальную выборку.

Эта выборка была разбита на 150 порций по 1000 словоупотреблений. В свою очередь, каждая из этих порций была разбита на 10 мелких выборок по 100 словоупотреблений каждая с учетом удельного веса каждого жанра и тематики.

Другой простой способ оценки качества составленного частотного словаря состоит в установлении того, насколько часто слова (словоформы) полученной списка встречаются в новых, неисследованных текстах, относящихся к той же тематике, что и ранее обследованные тексты. При этом важно определить, какой процент этих новых текстов будет покрывать единицы частотного словаря. Хотя оба эти подхода являются чисто эмпирическими и математически не строгими приемами, в целом они позволяют оценить качество частотного словаря.

С другой стороны, существуют чисто математические приемы, при помощи которых можно достаточно строго оценить достоверность полученных результатов.

К таким приемам, прежде всего можно отнести:

а) определение объема выборки и нижнего порога достоверности частот единиц частотного словаря;

б) определение доверительных интервалов вероятностей или математических ожиданий частот для слов (словоформ).

 

3.3. Описание программы «Текстовый анализатор»

Для начала работы с программой необходимо запустить файл TextAnalys.exe. При запуске программы открывается главная форма приложения (рисунок 1.1).

 

Рисунок 1.1- Главная форма приложения

Для начала разбора и анализа текста необходимо загрузить текстовый файл (файл с расширением *.txt). Для этого необходимо зайти в меню «Текст» и выбрать «Загрузка текста из файла» (рисунок 1.2)

Рисунок 1.2- Выбор файла

После выбора текстового файла можно начать непосредственно анализ и разбор текста. Для статистического (количественного) анализа корпуса текста необходимо выбрать меню «Анализ корпуса текста» и на экран вылезет форма с проанализированным текстом (рисунок 1.3).

Для каждой лексической единицы текста будет подсчитана ее абсолютная частота, относительная частота, удельная энтропия.

Список в левом окне формы упорядочен по рангу слова (т.е по его частоте встречаемости в тексте).

В правом окне этой формы будет показано количество слов в тексте, количество абзацев, подсчитаны знаки препинания (точки, запятые, восклицательные знаки, вопросы, двоеточия, точки с запятой).

А также: накопленная энтропия, индекс исключительности, индекс предсказуемости, индекс дистрибуции, индекс итерации. После этого вы можете увидеть, сколько слов в тексте встретились больше одного раза, сколько встретились хотя бы раз и один раз.

Далее идет список всех чисел встреченных в тексте.

Внизу формы выводиться сумма всех частот (т.е список всех лексических единиц, встреченных в данном тексте).

 

Рисунок 1.3- Количественный анализ корпуса текста

После произведенного анализа программа предлагает сохранить результат в файл (с расширением *.txt), который вы также можете выбрать, либо создать сами (рисунок 1.4).

Рисунок 1.4- Сохранение результата

В меню «Разбор» имеется подменю «Частичный разбор». Нажав на это подменю, либо нажав горячие клавиши “Ctrl+C” на экран вылезет форма с пятью пустыми окнами и кнопкой “Разбор”. При нажатии этой кнопки произойдет разбор текста на местоимения, междометия, предлоги, союзы и числительные (рисунок 1.5). Этот разбор осуществляется по имеющейся базе этих частей речи, которую вы можете просмотреть на главной форме программы.

Рисунок 1.5- Разбор на части речи 1

 

Результат данного разбора сохраняется в текстовых файлах (в папке с программой).

Кроме разбора на местоимения, междометия, предлоги, союзы и числительные имеется разбор на существительные, глаголы и прилагательные. Для этого разбора необходимо зайти в меню «Разбор», выбрать подменю «Разбор (сущ, глаг, прил)», либо нажать “Ctrl+S”.

Используя кнопки под каждым окном формы, получается разбор текста на данные части речи (рисунок 1.6).

Это разложение на части речи осуществляется по имеющейся базе данных, которая находится в папке с программой.

 

Рисунок 1.6 Разбор на части речи 2

 

 

Также в программе имеется “Помощь” в которой описывается, как обращаться с программой (рисунок 1.7).

 

Рисунок 1.7 Справка

 

Таким образом, используя все эти функции, можно разобрать текст на части речи и произвести количественный анализ корпуса данного текста.

 

 

В третьей главе описан комплекс программ для составления частотных словарей корпусов текстов и программа «Текстовый анализатор» для интерактивной обработки текстов.


Заключение

В результате дипломной работы была создана программа «Количественный анализ корпуса текстов». Данная программа позволяет разбирать тексты на части речи и анализировать их корпуса. Возможности программы можно описать кратко






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.