Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Индексы (коэффициенты, формулы) и энтропия






Hi = - fi log fi - удельная энтропия ЛЕ.

H*k = - накопленная энтропия текста, равная сумме Hi.

IC = (fr12+ L2)^1/2 - индекс дистрибуции (чем IC больше, тем богаче словарь текста).

Ii = индекс итерации (повторения ЛЕ в замкнутом тексте) Ii= N/L.

Ie = индекс исключительности (специфичности) лексики Ie=20*Lf1/N.

Iq = Lfk /N - индекс плотности текста (чем богаче тематика, тем выше Iq, чем однообразнее тема, тем Iq ниже).

IP = индекс предсказуемости (предполагается, что чем IP меньше, тем привлекательнее текст) IP = 100 - (Lf1*100)/N.

n = число абзацев в тексте.

m = число абзацев текста, в которых встретилась ЛЕ.

K i = Fi * m / (N * n) коэффициент важности ЛЕ.

Iext = объем экстенсивности словаря текста. Пропорционален широте лексики, разнообразию выражения.

If = индекс стереотипности текста. Длина интервала средней части повторяющихся ЛЕ. Если If больше, то главное не форма, а содержание (для беглого нестилизованного чтения, спонтанная речь). If меньше у художественных текстов, беллетристики.

IColeman-Liau = = индекс Колемана–Лиау предназначен для оценки удобочитаемости текста [Coleman–Liau].

IFlesch = 206.835 – 84.6 = позволяет установить уровень удобочитаемости текста и приблизительный уровень образования, необходимый для того, чтобы понять написанное. Индекс FRES (Flesch Reading Ease Score) получил широкое распространение после принятия в ряде штатов США законодательных норм, требующих, чтобы текст договора страхования мог быть понятен лицам со средним образованием. Обрабатывается фрагмент текста размером около 100 слов. Аббревиатуры, символы и слова, написанные через дефис, рассматриваются как отдельные слова. IFlesch < 30сложен для восприятия людям с высшим образованием; «понятный английский язык» имеет индекс IFlesch > 60; разговорный английский язык 80. Текст с индексом IFlesch > 90 понятен школьникам средних классов. Рудольф Флеш является автором изданной в 1951 году книги «Искусство ясного мышления», которая учит думать быстрее, глубже и творчески. В ней Флеш утверждает, что все сбои в логическом построении текста можно распознать с помощью двух формул «Ну и что?» и «Конкретизируйте». Он же создал в 1943 г. " формулу Flesch", по которой можно проверить уровень доходчивости текста. Поскольку количество слогов и длина предложений в английском и русском языках отличаются, И. Оборнева (Оборнева И.В., 2005) предлагает базовую индекс IFlesch со следующими, подходящими для русских текстов, коэффициентами: IFlesch = 206, 836-65, 14 Nsyllable — 1, 52 Lclause, где Nsyllable = средняя длина предложений в словах, Lclause = число слогов. Оценка трудности текста выражается в значениях от 100 (очень легкие тексты) до 0 (очень сложные тексты). Для русского языка шкала 0-30 соответствует уровню выпускника института, 31-50 - студент, 51-60 - выпускник средней школы, 61-70 - 8-9 класс, 71-80 - 7 класс, 81-90 - 6 класс, 91-100 - 5 класс. Рекомендации Р Флеша для читабельности текста: 1) используйте допустимые сокращения; 2) по возможности составляйте предложения без использования слова " что"; 3) используйте местоимения " я", " мы", " они" и " вы"; 4) при необходимости повторяйте существительное и не ищите ему красочную замену; 5) используйте краткие, ясные предложения; 6) в параграфе освещайте только один вопрос; 7) используйте активный залог.

= " индекс туманности" (" fog index"), разработанный в 1952 году американским ученым Р. Ганнингом [Miles T.H., 1990], позволяет определить минимальный возраст читателя, которому будет понятен данный текст. Используется этот индекс для оценки текстов, ориентированных на широкую аудиторию, и предполагает некоторые среднестатистические оценки образовательного уровня и интеллекта читателей. Индекс туманности измеряет сложность чтения, исходя из средней длины предложения и процента слов, состоящих из трех и более слогов. Чем выше индекс туманности, тем сложнее читать текст. Для оценки выбирается как минимум два произвольных фрагмента текста, содержащие приблизительно по 100 слов. Учитывается средняя длина предложения (в словах) и среднее число слогов в словах. Напр., для текстов на английском языке, понятных большинству населения, индекс туманности должен быть ниже 12. (Рогушина Ю.В. 2006). Этот индекс необходимо корректировать с учетом того, что среднее число слогов в русском языке больше, чем в английском. Индекс туманости: - для любовных романов = 7; - для учеников 8-9 классов средней общеобразовательной школы =8; - сложность языка газет = 9; - для коммерческих и избирательных кампаний =10; для людей с высшим профессиональным образованием = 16. Р.Ганнинг рекомендовал писать предложения, содержащие не более 20 слов, при этом, предполагая опыт читающего, выражать мысли, а не производить впечатление высокопарным слогом, в частности, употреблять глаголы, обозначающие активные действия.

Kcons = консонансный коэффициент = отношение числа согласных к числу гласных в слове (функциональная нагрузка согласных в речи определяется их ролью в организации звуковой цепи).

где - n - ключевое слово; c - коллокат; f(n, c) - частота встречаемости ключевого слова в паре с коллокатом; f(n) - абсолютные (независимые) частоты ключевого слова и f(c) - коллоката в тексте = коэффициент взаимной информации (зависимости) = сравнение зависимых контекстно-связанных частот с независимыми, как если бы слова появлялись в тексте совершенно случайно.

, где - n - ключевое слово; c - коллокат; f(n, c) - частота встречаемости ключевого слова в паре с коллокатом; f(n) - абсолютные (независимые) частоты ключевого слова и f(c) - коллоката в тексте. Мера , учитывая частоту совместной встречаемости ключевого слова и его коллоката, показывает насколько неслучайной является сила ассоциации (связанности) между коллокатами (коллокацией (полуфраземой) называется словосочетание, состоящее из двух или более слов, имеющее признаки синтаксически и семантически целостной единицы, значение которой не может быть получено из значений или коннотаций ее компонентов).

В качестве примера расчета энтропии и некоторых статистических индексов текста приведем результаты компьютерной обработки текстов русской поэзии XIX-XX веков, отдельно выделив поэтов, представленных на сайте «Машинного фонда русского языка /МФРЯ/» [https://cfrl.ru/, https://МФРЯ.РФ, https://cfrl.ruslang.ru/, https://nature.syktsu.ru/cfrl, https://www.irlras-cfrl.rema.ru/, https://www.artint.ru/cfrl, https://www.tractor.de/].

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.