Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Словари лингвистических терминов.






Словари лингвистических терминов – разновидность отраслевых энциклопедических словарей, содержащие термины языкознания и их толкование.

Первыми были небольшие по объему “Грамматический словарь” Н. Н. Дурново (1924 г.) и “Лингвистический словарь” Л. И. Жиркова (1946 г.). Более полным по составу является изданный на украинском языке, снабженный русским словником словарь лингвистических терминов Е. В. Кротевича и Н. С. Родзевич (1957 г.), а также “Словарь лингвистических терминов” Академии наук Латвийской ССР (составители—Р. Грабис, Д. Барбаре, А. Бергмане, 1963 г.).

В ряде словарей широко представлена терминология различных направлений структурализма. Таковы переводные “Словарь лингвистических терминов” Ж. Марузо (1960 г.), “Лингвистический словарь Пражской школы” И. Вахека (1964 г.), “Словарь американской лингвистической терминологии” Э. Хэмпа (1964 г.).

Наиболее полным, отражающим современное состояние языковедческой науки, содержащим около 7 тысяч терминов с переводом на английский язык и сопоставлениями из французского, немецкого и испанского языков, является “Словарь лингвистических терминов” О. С. Ахмановой (1966 г.). Словарь содержит и объясняет около 7 тыс. терминов всех лингвистических дисциплин (фонетики, фо-номорфологии, морфологии, синтаксиса, лексикологии, лингвостилистики). Термины сопровождаются переводами на английский язык и сопоставлениями из французского, немецкого и испанского языков. Указатель основных английских переводов дается в конце словаря. Словарные статьи содержат толкования терминов, иллюстрации их употребления и примеры. В приложении даны основные понятия теории стихосложения. Словарь предназначен для широких кругов филологов (преподавателей, аспирантов, студентов, научных работников и др.).

Словарь новых слов. Словарь, в котором дается толкование новых слов, не вошедших в изданные ранее словари. Такой словарь-справочник “Новые слова и значения” вышел в 1971 г. под редакцией Н. 3. Котеловой и Ю. С. Сорокина. Словарь содержит около 3500 новых слов, выражений и значений слов, появившихся в активном употреблении в периодической печати и художественной литературе главным образом в период 50—60-х годов XX века.

Бывают: одноязычные словари (с толкованиями на русском языке), многоязычные словари (с толкованием на русском языке), многоязычные словари (с толкованиями на иностранных языках), многоязычные словари (без толкований).

Возникновение словарей этого типа относится к концу XIX в. До этого лингвистическая терминология отражалась в более широких справочниках: энциклопедиях, толковых словарях общеупотребительного языка и т.п.

Расцвет лингвистической лексикографии относится к 60-м гг. XX в., что связано с появлением новых лингвистических дисциплин, школ и направлений, представляющих новые термины.

Особое место среди словарей лингвистических терминов занимает словарь О. С. Ахмановой (1966; 7 000 терминов). Он представляет собой не только обобщение всего предшествующего терминологического опыта, но и новый тип словаря, сочетающий одновременно толкование термина, перевод его на четыре языка, иллюстрации реального функционирования термина и подобное. Сопоставление терминов с терминами следующих языков: английским, французским, немецким и испанским.

В качестве пособия для учителей средней школы издан «Словарь-справочник лингвистических терминов» Д. Э. Розенталя и М. А. Теленковой (М., 1975), в котором разъясняются термины лексики, фразеологии, фонетики, графики, орфографии, морфологии, синтаксиса, стилистики, пунктуации применительно к школьной практике.

Следует отметить еще ряд аналогичных изданий, подготовленных литературоведами и адресованных учителям и учащимся: «Словарь литературоведческих терминов» (ред.-сост., Л. И. Тимофеев, С. В. Тураев. М., 1974); Л. Тимофеев, Н. Венгеров «Краткий словарь литературоведческих терминов» (под общ. ред. Л. И. Тимофеева. 4-е изд., испр. и доп. М., 1963); «Краткий словарь литературоведческих терминов» (ред.-сост. Л. И. Тимофеев, С. В. Тураев. М., 1978).

В этих книгах раскрываются основные понятия теории литературы, освещаются вопросы, связанные с пониманием самых разных явлений художественной литературы.

В словаре Э. Г. Азимова и А. Н. Щукина в более чем 2 000 статьях описана методическая терминология в области преподавания языков, родных и специальных.

Англо-русский словарь по лингвистике и семиотике. Около 8000 терминов. Под редакцией А.Н.Баранова и Д.О. Добровольского, Том II. Второй том «Англо-русского словаря по лингвистике и семиотике» содержит два указателя, которые облегчают пользование первым томом, вышедшим отдельным изданием в 1996 г.

Русско-английский индекс позволяет найти по русскому термину его английские эквиваленты, фиксированные в первом томе. Отсюда следует, что его нельзя рассматривать как двуязычный русско-английский словарь лингвистической терминологии. Основная задача индекса — вспомогательная. Читатель благодаря этому индексу может найти в первом томе словарные статьи, содержащие в качестве переводов
соответствующие русский лингвистические термины. Английский тематический индекс дает возможность искать составной термин по его компонентам. Например, термин adverbial clause of result можно найти по всем его знаменательным компонентам: adverbial, clause, result. Необходимость такого индекса связана с тем, что в первом томе словаря принят строго алфавитный, а не гнездовой способ расположения словарных статей. Иными словами, все составные термины даются в словаре по алфавиту, начиная с первой буквы первого слова.

 

19. Корпусная лингвистика, её идеология и основные понятия.

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий.

Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой.

В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:

1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;

2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;

3) однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях.

Можно сказать, что все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы. Спрос на корпусные данные совпал с появлением соответствующих технических возможностей.

Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.

В 1963 г. в Брауновском университете (США) впервые был создан большой корпус текстов на машинном носителе (Brown Corpus).

Затем последовали Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB), Уппсальский корпус русского языка. Среди современных корпусов английского языка наиболее известны Британский национальный корпус (British National Corpus), Международный корпус английского языка (International Corpus of English), лингвистический Банк английского языка (Bank of English), НКРЯ и др.

Объем первых корпусов составлял 1 млн словоупотреблений (Брауновский корпус, Уппсальский корпус русского языка). В настоящее время считается, что объем общеязыкового корпуса должен быть не меньше 100 млн словоупотреблений.

Главная цель КЛ:

-лингвистическое описание языковой системы (подход от конкретного изучения коммуникации людей),

-особый способ отражения речевого материала в корпусе текстов, который может использоваться в свою очередь другими лингвистическими дисциплинами.

Типы лингвистических корпусов - иллюстративные и исследовательские, статичные и динамические, одноязычные и полноязычные, корпусы устной или письменной речи, национальные корпуса и др.

Важнейшее понятие корпусной лингвистики – репрезентативность. Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п. Репрезентативность - способность отражать все свойства проблемной области.

Разметка (tagging, annotation) заключается в приписывании текстам и их компонентам специальных меток (tag, tags): внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое. Это кодирование информации имеет название метаразметка), структурных (глава, абзац, предложение, словоформа) и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста.

Среди лингвистических типов разметки выделяются:

· морфологическая разметка.

морфологические метки включают не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи.

· Это основной тип разметки: во-первых, большинство крупных корпусов являются как раз морфологически размеченными корпусами, во-вторых, морфологический анализ рассматривается как основа для дальнейших форм анализа – синтаксического и семантического, и, в-третьих, успехи в компьютерной морфологии позволяют автоматически размечать корпусы больших размеров;

· синтаксическая разметка, являющаяся результатом синтаксического анализа, или парсинга (англ. parsing), выполняемого на основе данных морфологического анализа. Этот вид разметки описывает синтаксические связи между лексическими единицами и различные синтаксические конструкции (например, придаточное предложение, глагольное словосочетание и т.п.);

· семантическая разметка. Хотя для семантики нет единой семантической теории, чаще всего семантические тэги обозначают семантические категории, к которым относится данное слово или словосочетание, и более узкие подкатегории, специфицирующие его значение;

· анафорическая разметка. Фиксирует референтные связи, например, местоименные;

· просодическая разметка. В просодических корпусах применяются метки, описывающие ударение и интонацию. В корпусах устной разговорной речи просодическая разметка часто сопровождается так называемой дискурсной разметкой, которая служит для обозначения пауз, повторов, оговорок, и т.д.

Существуют и другие типы разметки.

Работа пользователей с корпусом осуществляется с помощью специализированных программных средств – корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необходимой информации:

- поиск конкретных словоформ;

- поиск словоформ по леммам;

- поиск группы словоформ в виде разрывной или неразрывной синтагмы;

- поиск словоформ по набору морфологических признаков;

- отображение информации о происхождении, типе текста и т.п.;

- вывод результатов поиска с указанием контекста заданной длины;

- получение различных лексико-грамматических статистических данных;

- сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др.

Результаты поиска обычно выдаются в виде конкорданса (поэтому корпусные менеджеры еще называют конкордансерами), где искомая единица представлена в ее контекстном окружении и в виде статистических данных. Последние могут фиксировать частотные характеристики отдельных языковых единиц, или граммем, или могут характеризовать совместную встречаемость нескольких лексических единиц. Многие системы позволяют настраивать формат выдачи (менять длину левого и правого контекста, задавать объем выдачи и порядок сортировки данных, отображать или не отображать лингвистические и экстралингвистические характеристики, и т.д.).

Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц.

 

Признак Типы корпусов
Тип данных Письменные Речевые Смешанные
Язык текстов Русский Английский и т.д.
«Параллельность» Одноязычные Двуязычные Многоязычные
«Литературность», специфичность Литературные Диалектные Разговорные Терминологические Смешанные
Жанр Литературные Фольклорные Драматургические Публицистические
Доступность Свободно доступные Коммерческие Закрытые
Назначение Исследовательские Иллюстративные
Динамичность Динамические (мониторные) Статические
Разметка Размеченные Неразмеченные
Характер разметки Морфологические Синтаксические Семантические Просодические и т.д.
Объем текстов Полнотекстовые «Фрагментнотекстовые»
Хронологический аспект Синхронические Диахронические
«Общность» Общие Одного писателя
Структура Центральные и архивные Ядерные и периферийные

Основные понятия.

Проблемная область. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лин­гвистическому описанию. Проблемная область для конкретного корпуса данных может быть сколь угодно велика или мала — все определяется выбранным объектом анализа. Существенно иметь в виду, что в идеале проблемная область имеет два измерения — языковое и речевое. Рече­вое представлено речевыми высказываниями (реализациями), а языковое измерение проявляется в существовании потенциальной возможности по­явления других употреблений, дополняющих массив имеющихся реализа­ций. Как правило, в корпусной лингвистике языковой аспект фактически игнорируется, поскольку изначально фиксируется область привлекаемых данных — реализаций языковой системы. Это совершенно естественно, поскольку вряд ли возможно зафиксировать, собрать «потенцию», «воз­можность». Однако для регулярно изменяемых корпусов данных языковой аспект проблемной области сразу «вылезает» при разработке принципов модификации корпуса. Кроме того, для лингвистического исследования (кроме специально оговариваемых случаев) в центре внимания стоит именно языковое измерение, поскольку его следует реконструировать в результате анализа.

С чисто практической точки зрения проблемная область чаще всего предстает перед разработчиком корпуса как множество данных, обработка которых затруднена из-за того, что языковых реализаций слишком много.

Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения из про­блемной области. В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обла­дает потенцией производства своих составляющих. Последнее, однако, не означает, что корпус данных не может использоваться для реконструк­ции языка как системы. Наоборот — это одна из главных задач лингви­стического исследования корпуса. Перед нами одно из глобальных про­тиворечий, свойственное любому продукту языковой системы — от звука до текста. Лингвисту приходится по отдельным результатам деятельности языка делать выводы о функционировании языка как целого, как системы.

Единица хранения корпуса данных. Поскольку корпус данных — это некоторая выборка из проблемной области, сформированная по опре­деленным принципам, то единица хранения непосредственно зависит от того, по каким основаниям осуществляется выборка. Единица хра­нения — это некоторая совокупность естественноязыковых выражений проблемной области, которой сопоставляется одно описание на не­котором метаязыке, определяемом процедурой формирования корпуса. У. Фрэнсис, обсуждая размеры «базовых единиц» корпуса, отмечает, что это могут быть отдельные слова, короткие фразы, предложения, слово­сочетания (синтагмы). Если корпус предполагается для синтаксического анализа, то он должен включать целые тексты или их достаточно большие фрагменты [Фрэнсис 1983, с. 344 и далее].

На основании описания единицы хранения можно судить о том, какая часть проблемной области представлена в корпусе. Например, еди­ница хранения корпуса рекламных слоганов, созданного в Отделе экспе­риментальной лексикографии Института русского языка РАН, включает следующие характеристики:

слоган: Для мужчин, которые любят женщин, которые любят мужчин

фирма: «Louis Azzaro»

предмет: туалетная вода Azzaro pour Homme

область: косметика и парфюмерия

вид слогана: перевод с французского

оригинал: Pour les hommes qui aiment les femmes qui aiment les hommes

источник: Стае, Космополитен

Выражение естественного языка Для мужчин, которые любят женщин, которые любят мужчин и сопоставленные ему характеристики вместе образуют единицу хранения, которая может вводиться в базу данных или включаться в обычный файл текстового формата.

Единица хранения корпуса названий газетных статей должна бы­ла бы включать само название и совокупность дескрипций, содержащих информацию о том, из какой газеты название получено, в какой рубрике находится статья, когда вышла газета и другую необходимую инфор­мацию. Совокупность описаний единиц хранения образует некоторое множество, по которому можно судить о представительности выборки — какие газеты представлены, как формировалась выборка по временному параметру (все газеты какого-то периода vs. газеты через определен­ные промежутки времени vs. все газеты выбранных временных отрезков и т.д.); статьи каких рубрик представлены и пр.

Корпус текстов. Корпус текстов — это вид корпуса данных, единица­ми которого являются тексты или их достаточно значительные фрагмен­ты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

Несколько соображений о типах корпусов данных.

Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения раз­личных аспектов функционирования языковой системы. Они строятся не post factum — после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. Неспецифицированность за­дачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности (см. ниже).

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения стати­стики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена. Типичный пример иллюстративного корпуса представлен в «Путеводителе по дискурсив­ным словам русского языка» [Баранов, Плунгян, Рахилина 1993], где семантический анализ частиц и выделенные значения сопровождаются значительным текстовым материалом, позволяющим читателю проверить предложенные семантические интерпретации.

Динамические и статические корпусы текстов. Первоначально корпусы текстов создавались как статические образования, отражающие опреде­ленное временное состояние языковой системы. Типичными представи­телями этого вида корпусов являются авторские корпусы — коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале — например, изменения значе­ния слов, частоты использования тех или иных синтаксических конструк­ций и пр. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динами­ческого корпуса текстов. В имеющейся литературе такие корпусы получи­ли также название мониторных 23). Особенность сборки мониторных кор­пусов заключается в том, что они не предполагают раз и навсегда заданно­го набора текстов. В течение заранее фиксированного промежутка време­ни происходит обновление и/или дополнение множества текстов корпуса.

Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из об­щего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса. Как динамический корпус строился Бир­мингемский корпус английского языка. Пример динамического корпуса по современной российской публицистике рассматривается ниже.

Корпусы параллельных текстов. Для научных и практических це­лей (в частности, для преподавания иностранных языков) формируются

23) Термин «мониторный» прямо связан с идеей лингвистического мониторинга — см. §4 главы 5.

корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на не­мецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов.

Способ представления и хранения корпуса данных. Наибольший инте­рес представляют те способы, которые опираются на современные ком­пьютерные технологии хранения и обработки данных. Для дальнейшего изложения важно делать различие между двумя основными способами представления — неструктурированным текстовым форматом хранения (запись графем текста в ASCI-кодах) и структурированным форматом хра­нения (текст со специальной разметкой); к последнему можно отнести также представление данных в форматах баз данных различного типа.

Порог отображения. Поскольку корпус данных является сужением проблемной области, то совершенно очевидно, что при «пропорциональ­ном» сужении, являющемся, по-видимому, простейшим случаем реализа­ции принципа репрезентативности (см. ниже), некоторые части проблем­ной области оказываются вне корпуса данных. Возьмем грубый пример. Пусть в проблемной области содержится 20 контекстов, а в корпусе дан­ных должна быть четвертая часть — 5 контекстов. Контексты являются примерами реализации различных синтаксических феноменов: в десяти контекстах представлены простые предложения, а в восьми — сложные. В двух последних контекстах содержатся примеры парцелляции. В корпу­се данных один контекст соответствует четырем контекстам проблемной области. Это означает, что контексты парцелляции при пропорциональ­ном сужении в четыре раза не попадают в корпус данных. Соотношение между корпусом данных и проблемной областью при пропорциональ­ном сужении будем называть порогом отображения. Чем выше порог, тем больше вероятность, что какие-то феномены проблемной области, обладающие сравнительно низкой частотой, не попадут в корпус данных.

Параметризация проблемной области. Сужение проблемной области к исследовательскому корпусу основывается на выделении некоторых ха­рактеристик текстов проблемной области, которые релевантны для пред­полагаемого исследования. Совокупность этих характеристик (их возмож­ные комбинации) образует многомерную матрицу, служащую основой для отбора текстов в корпус. Часто для оценки релевантных параметров про­блемной области привлекается экспертная оценка. У. Фрэнсис, описывая историю создания Брауновского корпуса, отмечает, что на этапе плани­рования работ было собрано совещание известных экспертов в области конструирования корпусов (в нем принимали участие Р. Куирк, Ф. Гоув, Дж. Кэррол), которое и сформулировало основные принципы параме­тризации проблемной сферы и структуру корпуса

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.