Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Введение. Кафедра математики и информатики






Кафедра математики и информатики

Глазачев Владимир Васильевич

ЭЛЕМЕНТЫ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И КИБЕРНЕТИКИ ДЛЯ ЧИСЛЕННОГО АНАЛИЗА ПОЭТИЧЕСКИХ ТЕКСТОВ

выпускная квалификационная работа

по специальности010501 – «Прикладная математика и информатика»

Научный руководитель:

Лесников Сергей Владимирович,

к.ф.н., доцент кафедры

математики и информатики

 

Допустить в защите в ГАК

заведующий кафедрой математики и

информатики к.ф.-м.н., доцент

___________________ В.В. Сушков

 

Коряжма


Оглавление

Введение. 3

Глава 1. Основные возможности и характеристики Python. 5

1.1 Python. 5

1.2. Описание. 9

1.3. Возможности. 13

1.4. Библиотеки. 19

1.5. Недостатки. 22

Глава 2. Основные понятия лингвистической статистики. 27

2.1. Индексы (коэффициенты, формулы) и энтропия. 35

2.2. Описание выполненной работы. Экспериментальная часть. 38

2.3. Алгоритм программы.. 40

2.4. Реализация программы на примере корпуса текстов поэтов Золотого и Серебряного века. 41

Глава 3. Частотные словари. 52

3.1. Приемы составления частотных словарей лексики русских текстов 54

3.2. Оценка надежности частотного словаря. 54

3.3. Описание программы «Текстовый анализатор». 56

Заключение. 62

Список литературы: 64

Приложение А. Листинг программы.. 66

 

 


 

Введение

На сегодняшний день имеются много формул для статистической обработки текстов, выведенные как в теории, так и выдвинутые как гипотеза. Только эти формулы находятся в разных источниках и не собраны воедино.

Передо мной стояли основные задачи:

1) собрать эти формулы,

2) разобраться в них,

3) реализовать их в программном коде.

Что и было сделано в настоящей выпускной квалификационной работе. Разработанная программа позволяет разбирать тексты на части речи и анализировать их корпуса. Программа полезна заинтересованным пользователям ПК, информатикам, математикам, и, в частности, лингвистам.

В первой главе рассказывается об основных возможностях, характеристиках, недостатках и библиотеках языка программирования Python.

Вторая глава посвящена основным понятиям лингвистической статистики. Приведены индексы, коэффициенты и формулы для расчёта количественных показателей текстов. В этой же главе описан алгоритм программы и использование этой программы для количественной обработки корпуса текстов поэтов Золотого и Серебряного веков.

В третьей главе описан комплекс программ для составления частотных словарей корпусов текстов и программа «Текстовый анализатор» для интерактивной обработки текстов.

В заключении описывается вывод о проделанной работе.

В приложении представлен листинг программы, а также приведены комментарии к программному коду и описано предназначение отдельных процедур.

Предполагается, что вооруженный такой методикой исследователь сможет узнать из текста больше, чем хотел сказать его автор, ибо, скажем, настойчивое повторение в тексте каких-то тем или употребление каких-то характерных формальных элементов или конструкций может не осознаваться автором, но обнаруживает и определенным образом интерпретируется исследователем - отсюда принадлежащее социологу А.Г.Здравомыслову полушутливое определение контент-анализа как " научно обоснованного метода чтения между строк".

Во многих контент-аналитических проектах осуществляется не только оценка степени представленности в тексте тех или иных единиц, но и одновременная оценка этих единиц по тем или иным градуированным качественным шкалам. Обработка, презентация и интерпретация результатов.

Преимущества компьютерного анализа перед аналогичным исследованием тестов в ручную, на мой взгляд, очевидны. Он позволяет сэкономить время на структурировании результатов, оформлении их в таблицах, графиках, определениях.

Актуальность данной работы обусловлена, в частности, финансовой поддержкой Российского фонда фундаментальных исследований по исследовательскому проекту (грант) N 11-07-00733 (2011-2013) «Гипертекстовый информационно-поисковый тезаурус /ИПТ/ «Метаязык науки» (структура; математическое, лингвистическое и программное обеспечения; разделы лингвистика, математика, экономика) (научный руководитель С.В. Лесников)».


 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.