Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.






Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Под текстовым корпусом в корпусной лингвистике понимается структурированный, размеченный массив текстов или их значительных фрагментов, представленный в электронном виде и обеспеченный специализированной поисковой системой. Текстовые корпусы могут быть предназначены для решения различных лингвистических задач. Цель построения корпуса определяет его тип. Типы корпусов (фундаментальные корпусы текстов; динамические/мониторные vs. статические корпусы; исследовательские vs. иллюстративные корпусы; авторские корпусы).Важнейшим общим принципом формирования текстовых корпусов является их репрезентативность, которая определяется не только и не столько количеством языкового материала, но прежде всего его пропорциональностью. Другим отличительным свойством корпуса текстов является разметка (аннотирование) текстового массива.

Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме, объемом более 140 млн. слов.

Создание корпусов текстов русской речи началось сравнительно недавно.

Среди русских текстовых корпусов есть как корпусы, стремящиеся отразить состояние русского языка в целом на современном этапе его существования, так и корпусы, обращенные к отдельным его явлениям и подсистемам. Не все созданные или создающиеся корпуса доступны сегодня для широкого круга пользователей. Наиболее представительным из русских текстовых корпусов первой группы (в целом) является сегодня Национальный корпус русского языка. К этой же группе корпусов можно отнести, также такие корпусы, как:

– Тюбингенские корпусы русских текстов:

– Корпус русского литературного языка:

Характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода, содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном Интернете, в том числе и на русском языке (таких, как, по-видимому, наиболее известная «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»).

Предназначен для обеспечения научных исследований лексики и грамматики языка, тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка).

НКРЯ открыт в сети Интернет 29 апреля 2004 г. Текстовый массив корпуса охватывает период от начала XVIII до начала XXI в., при этом количественно преобладают в корпусе тексты современного периода – 2-й половины XX – нач. XXI в. Этот период отражен в НКРЯ также и наиболее разнообразно по жанрам и типам речи. Объем НКРЯ в настоящее время – более 140 млн. словоупотреблений. Русский язык представлен в НКРЯ в разных социальных формах его существования – литературной, разговорной, диалектной. Наиболее полно на сегодняшний день отражен в корпусе литературный вариант русского языка, который представлен значительным массивом художественных текстов разных жанров, другими видами письменной и (в меньшей мере) устной литературной речи: публицистика, научная и научно-популярная литература, частная переписка, дневники, документы, публичные выступления, газетные объявления и т.д. Корпус включает также небольшой пока подкорпус параллельных текстов – английских и русских, немецких и русских; планируется создание параллельных текстов и для других языков. Специфика НКРЯ состоит в его принципиальной «нелитературоцентричности», хотя роль текстов классической и современной художественной литературы в корпусе достаточно велика. Такая установка продиктована представлением о том, что «учет именно этих текстов не является для многих задач приоритетным», стремлением представить в корпусе «образцы доминирующего в данном языковом коллективе дискурса». «На роль последнего, – пишет В.А. Плунгян, – может в современной ситуации претендовать скорее литература, относимая к жанру‘non-fiction’, то есть литература с минимально декларируемой «художественностью», а также образцы устного городского фольклора: анекдоты, анонимные «истории из жизни», вербализующие стереотипы и мифы современного массового сознания»

В настоящее время в НКРЯ используются метатекстовая, морфологическая, семантическая, акцентная разметки, разрабатывается синтаксическая разметка. Структура НКРЯ и система разметки в нем постоянно совершенствуются.

Тексты, включенные в НКРЯ, не доступны для чтения и копирования как целые тексты. Они служат источниками примеров (контекстов), получаемых в результате поисковых запросов. Контекст выдачи равен одному предложению, однако по запросу пользователя может быть расширен до нескольких предложений. Каждая из текстоформ в контексте выдачи снабжена информацией о ее грамматических признаках (результат морфологической разметки), появляющейся в виде всплывающих окон. В НКРЯ предоставляется возможность поиска по слову, словоформе, словосочетанию, сочетанию слов, находящихся на определенном расстоянии друг от друга, по сегменту слова, по заданным грамматическим и семантическим характеристикам. В поисковый запрос могут быть включены также дополнительные признаки: повтор слова или грамматических характеристик, знаки препинания (находящиеся до или после запрашиваемого слова). Поиск в НКРЯ может вестись как по целому корпусу, так и по определенному подмножеству текстов. Пользователь может, например, ограничить область поиска текстами определенного автора, определенного периода, определенного жанра, определенной тематики и т.п. Есть также возможность сформировать свой исследовательский подкорпус по принятым в НКРЯ параметрам его структурирования корпуса.

НКРЯ – динамично развивающийся корпус. В его составе активно разрабатываются новые подкорпуса, совершенствуются уже созданные.

НКРЯ включает подкорпуса: глубоко аннотированный корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

параллельный русско-английский корпус текстов, в котором можно найти все переводы для определенного русского или английского слова или словосочетания;

корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов.

Все тексты, составляющие Национальный корпус русского языка, находятся на этом сайте и доступны для некоммерческого использования в научно-исследовательских и учебных целях. Тексты, помещаемые на сайт, не предназначены ни для чтения, ни для копирования: они могут использоваться в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление.

В Национальный корпус русского языка включены прежде всего прозаические оригинальные тексты, представляющие русский литературный язык (с середины XVIII века), но также и переводные сочинения, поэтические тексты, тексты, представляющие разговорную (записи устной речи, публичной и непубличной), диалектную формы.

Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на три главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века), корпус живой русской речи (записи устных текстов того же периода) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим трём массивам ведётся одновременно, выбрать один из них (и задать дополнительные параметры) можно на странице установки пользовательского подкорпуса.

Все тексты, входящие в основной корпус, проходят процедуру метаразметки и морфологической разметки. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа.

Представительный корпус современных текстов с морфологической разметкой является основным и самым объёмным из подкорпусов. Планируемый объем этого корпуса — 100 млн. словоупотреблений. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:

современная художественная проза разных жанров и направлений, современная драматургия, мемуарно-биографическая литература, журнальная публицистика и литературная критика, газетная публицистика и новости, научные, научно-популярные и учебные тексты, религиозные и религиозно-философские тексты, производственно-технические тексты, официально-деловые и юридические тексты, бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)

Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.

Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей). Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.

https://www.ruscorpora.ru/

Национальный корпус русского языка — доступный для поиска электронный онлайновый корпус русских текстов. Открыт 29 апреля 2004 года.

Объём основного корпуса на 17 января 2013 года составлял 230 млн словоупотреблений, а общий объем корпусов — 384 млн словоупотреблений.

Национальный корпус имеет две важные особенности. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений).

Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов. Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая. В ближайшее время планируется внедрение словообразовательной разметки, а также упрощённой синтаксической разметки в основном корпусе (отличной от той, которая представлена в синтаксическом Глубоко аннотированном корпусе). Система разметки постоянно совершенствуется.

Национальный корпус русского языка охватывает прежде всего период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Национальный корпус русского языка в настоящее время включает следующие подкорпуса:

-основной корпус, в который входят прозаические (включая драматургию) письменные тексты XVIII — начала XXI века;

-синтаксический (глубоко аннотированный) корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

-газетный корпус (корпус современных СМИ), в котором представлены статьи из средств массовой информации 1990-2000-х годов;

-параллельные корпуса, в которых можно найти все переводы для определенного слова или словосочетания на русский язык или с русского языка. В настоящее время для поиска доступны англо-русский, русско-английский, немецко-русский, русско-немецкий, французско-русский, русско-французский, испанско-русский, русско-испанский, итальянско-русский, русско-итальянский, польско-русский, русско-польский, украинско-русский, русско-украинский, белорусско-русский, русско-белорусский и многоязычный параллельные корпуса;

-корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

-корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

-обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

-корпус устной речи, включающий расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов;

-акцентологический корпус (корпус истории русского ударения) — тексты, несущие информацию об истории русского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе кинофильмов). Эти тексты доступны для поиска по месту ударения и просодической структуре слова;

-мультимедийный корпус, куда входят снабжённые видео- и аудиорядом фрагменты кинофильмов 1930—2000-х годов. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.)

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.