Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Связь с лингвистикой






Частотная статистика литературы бывает любопытна и неожиданна. Так, вроде бы очевидно, что язык великого писателя должен быть богаче, чем у писателя слабого, маловыразительного, но вот цифры: " Война и мир" Л.Н. Толстогосодержит 19519 различных русских слов на 409407 словоупотреблений [Частотный..., 1978], а написанный почти тогда же роман " Приваловские миллионы" Д.Н. Мамина-Сибиряка(его, по-моему, читать невозможно) – 11283 различных слова на 103941 словоупотребление [Генкель, 1974]; т.е. язык второго более чем вдвое богаче. Странно? Ничуть — самым «богатым» оказывается «язык» обезьяны, молотящей по клавишам, о чем скажу ниже.

Хорошо известно, что слова по частоте их употребления распределяются в любом крупном наборе текстов примерно гиперболически. Например, в " Частотном словаре русского языка" [1977] почти 10% словоупотреблений приходится на первые три слова (в, и, не), еще 10% – на следующие 8 слов (на, я, быть, что, он, с, а, как), а половину всех словоупотреблений составляют всего 213 слов (в этом словаре, охватившем 1 млн 56 тыс. словоупотреблений, учтено 39 тыс. различных слов). Зато более 13 тыс. (33, 7%) слов употреблено по одному разу.

Хочется допустить, что " гипербола" (*) объясняется тем, что слова в любом тексте связаны общим смыслом (см. Введение), но это не вполне так. Самый факт гиперболичности получается и для случайного набора букв – лишь бы они (1) делились пробелами на обычные по длине наборы (в английском языке это в среднем 4-5 букв на слово) и (2) для каждого данного " слова" (набора букв) подсчитывалась своя частота. Как показал в 1961 году Мандельброт, в этих допущениях частоты слов (наборов букв) ложатся на гиперболу с приемлемой точностью [Шрёдер, 2001, c. 68].

Однако не следует думать, что смысл не играет при этом роли. Играет, и даже определяющую: если, как уже сказано, в обычном частотном словаре половина словоупотреблений (медиана распределения) приходится на примерно первые две сотни слов, то в " обезьяньем" языке (имеется в виду метафора – обезьяна, бессмысленно стучащая по клавишам) медиана оказывается колоссально далеко: даже при девятибуквенном алфавите она охватывает почти два миллиона слов (там же). То есть практически вместо гиперболы мы увидим горизонтальную прямую.

Вся статистическая лингвистика основана на допущении, что каждой языковой единице может быть сопоставлена вероятность ее употребления в корпусе текстов, причем под вероятностью попросту понимают частоту, т.е. число употреблений данного слова, деленное на число слов в корпусе. Практика противится такой установке: в любом тексте оказывается, что около половины слов употреблено по одному разу.

Мала выборка? Что ж, сделали огромную выборку – просчитали тексты общей длиной более миллиона слов [Частотный..., 1977] и убедились, что по одному разу употреблена " всего лишь" треть слов, что 3/4 всех слов употреблено 10 раз и менее, т.е. что распределения частот записать все еще нельзя. Дело в том, что по ходу увеличения выборки новые слова появляются массово – ситуация, для которой стандартная статистика непригодна. Но ведь количество слов в языке конечно, а значит, поток новых слов должен когда-то иссякнуть. Может быть, надо просчитать миллиард слов, и получится сносное распределение частот, мало меняющееся с дальнейшим ростом выборки? Нет, не получится.

Даже если просчитать все слова во всех русских книгах, то, во-первых, многие слова останутся неисчислимо редкими, а во-вторых, вернее всего, никакой сходимости частот даже для самых употребительных слов не окажется – на это указывает сравнение частотных словарей. По Частотному словарю [1977] самое частое русское слово – предлог " в" – употреблено 43 тыс. раз в миллионной выборке, причем здесь его дисперсия в 30 раз превышает нормальную [Арапов, 1988, с. 17]. Неудивительно, что в другой миллионной выборке (словарь Г. Йоссельсона) предлог " в" оказался на третьем месте, а в словаре Н.П. Вакара– даже на седьмом [Vakar, 1966, с. 4, 133]. K сожалению, данные несопоставимы по форме, но если бы удалось вычислить общую дисперсию слова по всем словарям, она превысила бы нормальную в сотни раз.

Глагол " быть" – самое частое из самостоятельных (не вспомогательных) слов в русском языке, так показывают все 10 известных мне русских частотных словарей; это, пожалуй, единственный четкий инвариант русских частотных словарей, но и для данного слова частоты меняются от словаря к словарю втрое. Вторым же глаголом в разных словарях оказываются совсем разные слова: мочь, говорить, пойти, стать, знать.

Что касается частот даже самых употребительных существительных, то они меняются от словаря к словарю радикально, и самое частое в одном словаре может оказаться на очень далеком месте в другом, даже если он составлен по хронологически и социально близким текстам. Так, в Частотном словаре [1977] это " год" (49-е место), а в словаре Вакара– " товарищ" (33-е место); при этом в первом словаре " товарищ" занимает 92-е место, а во втором " год" – 222-е место. Даже Толстой, в романе которого самое частое существительное – " князь" (23-е место), и то употреблял слово " год" чаще (199-е место).

Первые исследователи частот слов были уверены, что любой текст в 10 тыс. разных слов даст один и тот же набор " основных слов" [Vakar, 1966, c. VII]. Оказалось совсем не так, и даже само понятие " основного слова" не вполне ясно. Сторонники вероятностного подхода предлагали ограничиваться рассмотрением лишь сходных по тематике текстов, но и это не помогло: словарь Вакараи второй корпус Частотного словаря [1977] составлены на сходных текстах (тогдашние ходовые советские пьесы), но дали совсем разные частоты. Сравнение частотных словарей см. [Арапови др., 1978]. Даже частоты служебных (т.е. самых частых) слов могут меняться в 3-4 раза, притом в рамках романов (т.е. единый жанр) одного автора [Генкель, 1974, с. 18].

Приходится признать, что частоты слов совсем непохожи на " коллективы" Мизеса: разные выборки из одной совокупности ведут себя очень различно, причем даже на миллионных выборках с ростом выборки доля вновь появляющихся слов не обнаруживает заметного падения.

Конечно, какая-то случайность в употреблении слов явно есть: если взять лаконичный текст и исключить речевые клише, то невозможно предсказать по предыдущим словам следующее. Но, в отличие от примера Ламберта, тут нельзя (за вычетом нескольких тривиальных ситуаций – выбор синонима или антонима) указать вероятность встретить определенное слово, поскольку частоты употреблений слов неустойчивы.

Причина необычного поведения частоты слов достаточно очевидна: всякий текст является системой, поэтому каждое словоупотребление определяется единым смыслом, а вовсе не случайным исходом какого-то статистического опыта. Но ведь иррациональное число – тоже система. Только поняв, в чем различие систем, дающих устойчивые частоты встречаемости своих элементов, от систем, такой устойчивости не дающих, мы приблизимся к пониманию природы случайности.

Господство вероятностного подхода видится мне следствием того смешения случайности и вероятности, о котором мы не раз говорили. Проанализировав ситуацию, лингвист М.В. Арапов[1988, c. 20] пришел к выводу, что сама парадигма вероятностей не имеет смысла при анализе текстов(*). А ведь к ее помощи порою прибегают при решении животрепещущих проблем подлинности текстов и правоспособности предполагаемых авторов. (Вспомним хотя бы скандал с авторством «Тихого Дона», в котором Нобелевский комитет опирался на данные частотного анализа, противники же вели обычный исторический и литературоведческий анализ.) Вновь приходит на ум афоризм – статистике часто принадлежит первое слово, но последнее – никогда.

Вероятностный язык здесь заведомо неприемлем, но если все-таки пользоваться языком частот, то придется признать модели, в которых дисперсии неограниченны, наиболее удобными.

Среди них главную роль играют устойчивые распределения, но существенно, что эти распределения, как и всюду, – всего лишь модели с ограниченной областью применимости. После всеобщего увлечения квази-гиперболами (распределением Ципфа) выяснилось, что далеко не все тексты " ципфовы" [Арапов, 1988]. Дальнейшее продвижение в статистической лингвистике будет, как мне видится, достигнуто после решения более общего вопроса – почему столь общ феномен квази-гипербол.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.