Функции пассива с агентивным дополнением: квантитативный анализ на материале мультиязычного датасета европейских языков тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат наук Нестеренко Любовь Владимировна

  • Нестеренко Любовь Владимировна
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ10.02.21
  • Количество страниц 135
Нестеренко Любовь Владимировна. Функции пассива с агентивным дополнением: квантитативный анализ на материале мультиязычного датасета европейских языков: дис. кандидат наук: 10.02.21 - Прикладная и математическая лингвистика. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2022. 135 с.

Оглавление диссертации кандидат наук Нестеренко Любовь Владимировна

Введение

Глава 1. Мультиязычные параллельные корпуса как особый вид данных

1.1. Параллельные корпуса — новый источник данных для лингвистических исследований

1.2. Параллельные корпуса и их устройство

1.2.1. Особенности устройства параллельных корпусов

1.2.2. Требования к устройству мультиязычного параллельного корпуса для сравнительных исследований

1.3. Мультиязычные параллельные корпуса сегодня: сравнение различных корпусов

1.3.1 Основные характеристики существующих параллельных корпусов

1.3.2. Недостатки современных мультиязычных параллельных корпусов и перспективы их использования в лингвистических исследованиях

1.4. Возможности существующих корпусов: обзор исследований на материале мультиязычных параллельных корпусов

1.4.1. Исследования лексики на материале мультиязычных параллельных корпусов

1.4.2. Грамматические исследования на материале мультиязычных параллельных корпусов

1.5. Выводы

Глава 2. Данные и методы

2.1. Предпосылки создания датасета для лексико-грамматического исследования

2.2. Особенности применения различных методов квантитативного анализа к мультиязычным данным параллельных корпусов

2.2.1. Факторный анализ

2.2.2. Построение семантических карт

2.2.3. Сетевой анализ

2.3. Мультиязычный датасет для исследования пассивов с агентивным дополнением

2.3.1. Пассив с агентивным дополнением и предпосылки создания датасета

2.3.2. Корпус

2.3.3. Данные

2.4. Выводы

Глава 3. На пути к функциональному разнообразию употреблений пассива с агентивным дополнением

3.1. Конструкция «пассив с агентивным дополнением»

3.2. Пассивные конструкции и функциональный подход, роль аспекта и типов ситуаций

3.3. Первые эксперименты: распределение пассива с агентивным дополнением в языках выборки, альтернативные варианты перевода

3.4. Выводы

Глава 4. Пассив с агентивным дополнением vs. актив: факторы, влияющие на выбор конструкции

4.1. Пассив с агентивным дополнением как альтернатива активному залогу

4.2. Данные для эксперимента

4.3. Модели и значимые признаки

4.4. Выводы

Глава 5. Функциональный анализ пассива с агентивным дополнением на основе мультиязычных данных

5.1. Конструкции альтернативные пассиву с агентивным дополнением

5.2. Описание фреймов, попадающих в зону употреблений пассива с агентивным дополнением

5.3. Сетевой анализ лексико-грамматических конструкций альтернативных пассиву с агентивным дополнением

5.3.1. Данные и принципы построения сетей

5.3.2. Сеть «Локативные результативы»

5.3.3. Сеть «Метафорические употребления»

5.3.4. Преимущества использования сетевых моделей для анализа переводных эквивалентов

5.4. Семантическая карта употреблений пассивов с агентивным дополнением в языках выборки

5.4.1. Данные и принципы построение семантической карты

5.4.2. Семантические карты и семантико-функциональные типы употреблений пассива с агентивным дополнением

5.5. Выводы

Заключение

Список литературы

Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Введение диссертации (часть автореферата) на тему «Функции пассива с агентивным дополнением: квантитативный анализ на материале мультиязычного датасета европейских языков»

Введение

Наша работа посвящена конструкции «пассив с агентивным дополнением», которую мы рассмотрим с точки зрения разнообразия ее семантико-функциональных употреблений. Несмотря на то, что пассивные конструкции были популярной темой в лингвистических исследованиях и им было посвящено немало работ, например, [Shibatani 1985; Givón 1994; Kazenin 2001; Abraham 2006; Keenan, Dryer 2009; Siewierska, Bakker 2015], в описании пассива с агентивным дополнением имеются лакуны, в частности, касающиеся функциональных особенностей этой конструкции. Пассивы обычно описываются как конструкции, в которых происходит вынесение исходного прямого дополнения в позицию подлежащего и понижение исходного подлежащего до косвенного дополнения или полное его исключение. Как следствие, одна из основных функций, приписываемая пассивам — это перераспределение статусов участников ситуации Такое видение функционального устройства пассивов кажется нам довольно узким, в работе мы будем опираться на гипотезу о том, что употребление пассивов не ограничивается дискурсивно ориентированными контекстами и может быть обуславливаться другими факторами, например, лексической семантикой или аспектом.

Таким образом, объектом нашего исследования являются пассивы и близкие к ним конструкции, а предмет исследования — конструкция «пассив с агентивным дополнением». Пассивом с агентивным дополнением мы называем пассивные конструкции, в которых выражены все участники ситуации исходной диатезы, их еще называют полным пассивом (full passive). Термин «агентивное дополнение» мы заимствовали из работы [Siewierska, Bakker 2013], опираясь на предложенное в ней обозначение, мы так называем косвенное дополнение при пассиве, соответствующее агенсоподобному участнику ситуации (А) [Haspelmath 2011]. Также определяющим критерием агентивного дополнения является оформление, закрепленное в грамматике языка как способ маркирования пониженного исходного подлежащего при пассиве, например, в английском — предлогом by, в немецком — von, но не mit, в итальянском — da, но не con. Пассив с агентивным дополнением часто описывают с точки зрения его дискурсивной функции, противопоставляя активу. В отношении агентивного дополнения говорится, что оно может быть опциональным, при этом имеется в виду, что существуют языки, в которых бывает только безагентивный пассив, а бывают такие, в которых представлены и тот, и другой тип [Keenan, Dryer 2009]. Однако, для случаев, когда в языке представлены безагентивный пассив и пассив с агентивным дополнением, нет четких правил, которые бы указывали на то, когда допустим один тип

пассива, а когда другой. Также нет понимания того как соотносятся значения, которые выражает пассив с агентивным дополнением со значениями, которые выражают близкие ему конструкции, есть ли у них зоны пересечения. Как это устроено в разных языках, какие есть общие группы ситуаций, которые в языках маркируются одинаково? Насколько разнообразны конструкции, которые могут маркировать те же ситуации, что и пассив с агентивным дополнением, есть ли лексические аналоги или актив — это единственная альтернатива? Для того, чтобы иметь возможность ответить на все эти вопросы, нужен материал, который позволил бы охватить достаточное количество релевантных примеров и сопоставить их в разных языках, например, мультиязычный параллельный корпус.

Для типологического анализа грамматического явления необходим определенный объем материала, который будет включать в себя множество контекстов на различных языках. Делать такую выборку вручную — затруднительно, это требует много времени, ведь контексты придется собирать из разных источников, поэтому лингвисты все чаще обращаются к мультиязычным параллельным корпусам. Одними из первых на эти преимущества параллельных корпусов указали в своей работе М. Сисоу и Б. Вэльхли [Wälchli, Cysouw 2007]. С появлением разнообразных инструментов автоматической обработки текста и аннотирования морфологических и синтаксических характеристик возросло количество корпусов на разных языках, снабженных разметкой и выравниванием. Доступность мультиязычных корпусов способствовала тому, что лингвисты стали чаще их использовать в исследованиях. Практика последних лет показывает, что на материале параллельных текстов можно исследовать разнообразные языковые явления как лексические, так и грамматические. В работах, выполненных на параллельном материале, исследовались видо-временные грамматические значения, каузативы, лексические единицы, относящиеся к различным семантическим областям. Несмотря на то, что использование мультиязычных параллельных корпусов относительно новая практика, она успела привлечь внимание многих исследователей [de Vries 2007, Cysouw & Wälchli (eds.) 2007, Dahl 2007, Aijmer 2008, Cermak & Rosen 2012, Östling 2016, Say 2021b, Сичинава 2016, Нестеренко 2019].

Принципиальное отличие использования параллельных корпусов от традиционного подхода состоит в том, что существенно меняется формат работы с данными, их описания и возникают возможности для применения разных квантитативных методов исследования. Важное свойство параллельных корпусов состоит в том, что они дают возможность соотносить конструкции и/или части конструкций в языках, которые пусть и не совпадают однозначно структурно, но являются эквивалентными друг другу. Исследуемая нами конструкция «пассив с агентивным дополнением», в отличие от других пассивных

конструкций, устроена довольно четко с формальной точки зрения: в ней нет опущенных участников ситуации. Наличие фиксированного набора участников ситуации делает процесс установления межъязыковых связей наиболее прозрачным, даже в тех случаях, когда нет прямого соответствия слово ~ слово, а есть соответствия уровня слово ~ конструкция или конструкция ~ несколько клауз. Все это вместе позволяет структурировать языковые данные и преобразовать в формат датасета, в котором каждая единица обладает четким набором характеристик. В нашем случае, использование сопоставимых контекстных ситуаций позволит определить а) какие семантически близкие ситуации маркируются пассивом с агентивным дополнением в разных языках и б) каково многообразие альтернативных способов выражения, которые могут использоваться для обозначения этих ситуаций. Работая с мультиязычными данными, мы опираемся на переводные единицы, это значит, что мы рассматриваем ситуации, учитывая всю вариативность языковых реализаций и не ограничиваясь в выборе определенных конструкций, т.е. диапазон рассматриваемых конструкций задается прежде всего контекстами из нашего материала, а не формулировками о релевантности. Использование квантитативных методов позволяет проанализировать большой объем информации и сделать обобщения, которые сложнее было бы сформулировать, анализируя материал вручную.

Актуальность нашего исследования определяется ростом интереса лингвистов к проведению исследований на материале мультиязычных параллельных корпусов и перспективам применения современных квантитативных методов для анализа языковых явлений в новом формате.

Цель работы — рассмотреть и описать семантико-фукнциональную сферу употреблений конструкции «пассив с агентивным дополнением» в функциональной перспективе на материале мультиязычного параллельного корпуса, и проанализировать особенности выбранной нами конструкции, используя квантитативные методы работы с языковыми данными.

В соответствии с поставленной целью в работе решаются следующие задачи:

1. Построение мультиязычного корпуса, проведение автоматического выравнивания и разметки текстов

2. Подготовка набора данных для исследования: извлечение из корпуса контекстов, содержащих пассивы с агентивным дополнением

3. Предварительный количественный анализ данных и последующий качественный анализ данных с целью выделения релевантных параметров для разметки, выделение функциональных групп пассивов с агентивным дополнением

4. Анализ признаков ситуации, влияющих на выбор между пассивом с агентивным дополнением и активом, при помощи факторного анализа

5. Анализ разнообразия альтернативных конструкций путем построения графовых моделей

6. Анализ межъязыковой вариативности в маркировании ситуаций, которые могут бывать выражены пассивом с агентивным дополнением

7. Описание пассивов с агентивным дополнением на основе анализа и интерпретации полученных результатов

Основные методы, на которые мы опираемся в работе — это факторный анализ с использованием моделей логистической регрессии, сетевой анализ и метод многомерного шкалирования для построения семантических карт. Факторный анализ мы используем с целью оценить, как некоторый набор признаков влияет на различение употреблений пассива с агентивным дополнением в противопоставлении активу. Работая с многообразием средств выражения, которые наравне с пассивом с агентивным дополнением могут маркировать ситуации, мы помощи сетевого анализа упорядочиваем конструкции и анализируем закономерности их совместной встречаемости в переводах. Для визуализации и разделения переводных единиц датасета на семантико-функциональные группы мы строим семантические карты, которые также позволяют понять как выделяемые группы соотносятся с различными средствами выражения в языках выборки. Таким образом, каждый из методов анализа ориентирован на решение определенной задачи.

Новизна исследования состоит в том, что несмотря на большое количество работ, посвященных залоговым конструкциям, практически отсутствуют такие, которые были бы проведены на материале мультиязычных параллельных текстов, или же с применением предложенных квантитативных методов.

На защиту выносятся следующие положения:

1) Использование мультиязычных корпусов меняет формат работы с языковым материалом, оно позволяет не только использовать квантитативные методы анализа, но и делать обобщения, которые при традиционном подходе трудно зафиксировать.

2) Конструкция «пассив с агентивным дополнением» обладает не только дискурсивной функцией, ее сфера семантико-функциональных употреблений захватывает область лексической семантики, аспектуальных значений и взаимного расположения событий.

3) Ни один из рассматриваемых нами языков не использует пассив с агентивным дополнением исключительно в контекстах, где он противопоставлен активу переходных предикатов.

4) Языки выборки демонстрируют вариативность в том, какие функции пассив с агентивным дополнением в них выполняет. Каждый язык характеризуется индивидуальным набором типов ситуаций, специфичных для употребления пассива с агентивным дополнением.

Теоретическая и практическая значимость работы определяется в тем, что в ней предложен подробный анализ семантико-функциональной сферы употреблений пассива с агентивным дополнением на основе результатов применения квантитативных методов исследования. Для контекстов, где пассив с агентивным дополнением противопоставлен активу пассив был проведен эксперимент по оценке вклада различных признаков в различение этих двух конструкций. Этот эксперимент дополняет информацию, полученную в других работах [Tomlin 1995; Ambridge et al. 2016], посвященных различиям актива и пассива. Другое подмножество употреблений пассива с агентивным дополнением оказалось не связано с функцией перераспределения участников ситуации, что стало нашей находкой. Такие употребления пассива с агентивным дополнением практически не были описаны ранее на мультиязычном материале. Предложенная нами категоризация этих употреблений и описание множества конструкций, используемых для маркирования этих контекстов наравне с пассивом с агентивным дополнением, дополняет существующее описание пассивов и освещает пассивы с агентивным дополнением с другой перспективы. Полученные результаты указывают на то, что ранее функции пассивов рассматривались более узко и представление о них может значительно расшириться. Также в работе мы сочетаем различные квантитативные методы анализа, которые позволяют разносторонне подойти к описанию языкового явления. В совокупности они представляют схему анализа языкового явления на материале параллельного корпуса, которая может быть использована в исследованиях других грамматических явлений. Предложенный подход к работе с типами конструкций на основе моделей сетевого анализа не применялся ранее в работах лингвистов и может стать новой составляющей инструментария исследователей.

Апробация результатов исследования. Основные результаты исследования были представлены на Международной конференции по компьютерной лингвистике «Диалог 2019» (г. Москва, 2019) и воркшопе "Parallel Corpora as Digital Resources and Their Applications" в рамках конференции Digital Humanities in the Nordic and Baltic Cultures 2020. По теме диссертации опубликовано 3 работы в изданиях, рецензируемых Scopus:

• Нестеренко Л. В. Мультиязычные параллельные корпуса: новый источник данных для типологических исследований, перспективы использования и проблемы // Вопросы языкознания - 2019. - Номер 2 C. 111-125.

• Bonch-Osmolovskaya, A. A., and L. V. Nesterenko. "Multilingual parallel corpora as a source for quantitative cross-linguistic grammar research (the case of voice constructions)." Kompjuternaja Lingvistika i Intellektual'nye Tehnologii, 2019. P. 114-124. (Бонч-Осмоловская А.А., Нестеренко Л.В., Мультиязычные параллельные корпуса как источник данных для квантитативных исследований (на примере пассивных конструкций. Компьютерная лингвистика и интеллектуальные технологии, 2019, с 114-124)

• Nesterenko, Liubov. "Quantitative Analysis of Passives with Agent Phrase Based on Multilingual Parallel Data." In DHN Post-Proceedings, 2020. P. 5-15.

(Нестеренко Любовь. Квантитативный анализ пассивов с агентивным дополнением на материале мультиязычных параллельных данных. DHN Post-Proceedings, 2020, c 5-15)

Структура работы. Помимо введения и заключения работа включает в себя пять глав и список библиографических ссылок. В первой главе приводится обзор работ, посвященных разработке параллельных корпусов, а также исследований грамматики и лексики, проведенных на основе параллельных данных. Во второй главе мы описываем процесс создания датасета, разбираем особенности разметки данных, а также рассматриваем используемые в работе методы квантитативного анализа. В третьей главе мы рассматриваем пассивные конструкции и характеристики, которые им приписывают в посвященных им работах, выделяем неоднозначные моменты в описании и приводим предварительные результаты оценивания распределения употреблений пассивов с агентивным дополнением в языках выборки. В четвертой главе приводится эксперимент по определению признаков, влияющих на выбор между активом и пассивом, в контекстах где пассив с агентивным дополнением используется в противопоставлении активу. Пятая глава посвящена освещению разнообразных функциональных употреблений пассива с агентивным дополнением и анализу их при помощи графовых моделей и семантических карт.

Глава 1. Мультиязычные параллельные корпуса как особый вид данных

1.1. Параллельные корпуса — новый источник данных для лингвистических исследований

Проведение сравнительного анализа языковых явлений требует наличие лингвистического материала, который бы позволил исследователю в полной мере охватить возможные употребления рассматриваемой конструкции в различных контекстах. Употребление синтаксических конструкций, например, залога или актантной деривации, связано с множеством различных факторов, а также характеристиками ситуации в целом. Исследуя грамматическую конструкцию, мы задаемся вопросами о том, как соотносятся значения, которые она выражает, а также какие есть близкие ей конструкции, выражающие похожие или противоположные значения. Как эти значения и конструкции функционируют в разных языках? Есть ли ситуации, которые в разных языках будут иметь одинаковый способ выражения? А как много таких ситуаций, которые демонстрируют разнообразное маркирование в языках? В чем состоит это разнообразие, какие оно включает в себя конструкции? Какие лексические выражения можно встретить в качестве аналога исследуемой грамматической конструкции? Использования традиционных типологических подборок примеров, извлеченных из грамматик может быть не достаточно, чтобы по-максимуму дать ответы на возникающие у исследователя вопросы. Мультиязычные параллельные корпуса являются материалом, позволяющим собрать репрезентативную выборку, на основе которой можно проанализировать разнообразные по семантике ситуации и сравнить языковые средства, используемые в языках для их маркирования.

Особенности устройства параллельных корпусов, такие как пословное выравнивание и выравнивание по предложениям, дают возможность перейти от работы с отдельными примерами, собранными из разных источников, к работе со структурированными данными — массивами унифицированных контекстов с разметкой. Именно работая с выровненными переводными текстами, мы можем анализировать мультиязычный материал с одинаковой семантической и прагматической составляющей. Это позволяет а) проследить устройство языкового явления в сопоставимых контекстах; б) обнаружить функциональные различия употребления исследуемого явления в разных языках.

Разнообразное языковое наполнение обеспечивает доступность межъязыкового сравнения, наличие унифицированной морфологической и синтаксической разметки позволяет автоматически извлекать языковые единицы с релевантными для исследования

параметрами, а большой объем корпусного материала — перейти к количественному анализу. Все это является основой для применения статистических методов анализа, позволяющих оценивать достоверность выдвигаемых гипотез или, наоборот, формулировать новые. Использование квантитативных методов исследования становится все более распространенной практикой, и за последнее десятилетие стало понятно, что мультиязычные параллельные корпуса способны вывести сравнительные исследования на совершенно новый уровень.

В этой главе мы рассмотрим особенности устройства мультиязычных параллельных корпусов, выделим параметры, особенно важные для исследовательского корпуса. Мы сопоставим существующие на данный момент мультиязычные параллельные корпуса на основе выделенных параметров и оценим, какие трудности могут возникнуть при их использовании. Также мы проанализируем исследования на материале параллельных корпусов и то, с какими проблемами сталкиваются исследовании при использовании мультиязычного материала, а что, наоборот, оказывается преимуществом. Таким образом, при построении нашего собственного иследования мы сможем опереться на сделанные в результате анализа выводы и принять во внимание разные аспекты работы с мультиязычными параллельными текстами.

1.2. Параллельные корпуса и их устройство

1.2.1. Особенности устройства параллельнъх корпусов

В параллельных корпусах представлены переводные тексты, это подразумевает наличие ряда специальных технических требований к их построению. Рассмотрим подробнее, как устроены параллельные корпуса и введем важные для нашей дальнейшей работы понятия.

Параллельный корпус представляет собой коллекцию оригинальных текстов на языке Ь1 с их переводами на один или более языков Ь2...Ьп, важным атрибутом такого корпуса является наличие в нем выравнивания, то есть наличие установленных соответствий между текстовыми единицами. Как правило тексты в параллельном корпусе выровнены по предложениям (реже по фрагментам текста, абзацам), иногда в корпусе может быть также и пословное выравнивание, когда соответствия устанавливаются между словами. Помимо выравнивания, тексты в параллельном корпусе могут обладать морфологической и синтаксической разметкой, однако именно выравнивание является значимой отличительной чертой параллельного корпуса.

Поскольку в параллельном корпусе представлено более одного языка, получается, что будто бы добавляется дополнительное измерение: в обычном корпусе пользователь имеет

дело с токенами и предложениями, а в параллельных корпусах предложения группируются в переводные единицы. Предложение (или несколько предложений) на языке оригинала с соответствующими ему переводами на представленные в корпусе языки называется переводной единицей, а языковые выражения, используемые при переводе, которые соответствуют словам и конструкциям из оригинального текста, называются переводными эквивалентами. Также переводными эквивалентами можно называть отдельно взятые языковые выражения, которые могут использоваться в качестве перевода друг друга.

На основе языкового состава параллельные корпуса можно разделить на двуязычные и мультиязычные. Если текстовой единице из одного языка соответствует один эквивалентный перевод на другом языке, то мы имеем дело с двуязычным корпусом, если же несколько переводов на разных языках — с мультиязычным. Мультиязычный параллельный корпус также можно описать как множество полностью параллельных двуязычных корпусов, т. е. текстовых соответствий переводных пар языков. Деление на двуязычные и мультиязычные чисто формальное, однако это разделение оказывается важным при решении различных задач, например, для машинного перевода — не обязательно, чтобы все языковые пары были полностью параллельны друг другу, а для исследований наличие полного соответствия частей корпуса может быть принципиально важным.

Устройство параллельных корпусов задает определенные рамки на то, какие аспекты следует учитывать при их построении. Это может касаться и языкового корпуса (сколько языковых пар включает корпус), и однородности переводных пар языков, представленных в корпусе, и других лингвистических характеристик, а также технических моментов (например, большой объем мультиязычного материала требует больше времени и различных ресурсов для обработки). В следующем подразделе мы рассмотрим, какие характеристики мультиязычных корпусов оказываются важными при использовании их в лингвистических исследованиях.

1.2.2. Требования к устройству мультиязычного параллельного корпуса для сравнительных исследований

Для того, чтобы мультиязычный корпус можно было использовать в лингвистических исследованиях, он должен соответствовать ряду параметров. Мультиязычный корпус должен быть удобным для автоматической обработки, обладать разметкой, которая позволит извлекать необходимые контексты, а также иметь понятную структуру соответствий разных частей корпуса друг другу, и в идеале позволять исследователю работать с типологически разными языками. Здесь мы предложим список характеристик, которые необходимо учитывать при выборе корпуса для проведения исследования.

1. Разнообразие языковой выборки

Если говорить о применении параллельных корпусов в типологии в традиционном понимании, то для таких исследований важно, насколько разнообразна и сбалансирована используемая языковая выборка. Она должна по возможности состоять из языков разных семей и разного грамматического строя, то есть не ограничиваться исключительно европейскими языками. Исключением может быть случай, когда идет речь об исследовании в рамках конкретной языковой группы. При сборе материала для исследования вручную типологи стараются использовать различные источники информации и включать в выборку максимально разнообразный языковой материал. На практике оказывается, что параллельные корпуса преимущественно двуязычные, а мультиязычных корпусов существенно меньше. К сожалению, выполнение требования максимально разнообразной выборки не зависит напрямую от исследователя, а в большей степени определяется внешними обстоятельствами, т. е. наличием доступных переводов.

2. Неоднородность переводных соответствий

Другое требование, которое стоит учитывать при выборе корпуса для исследования, — однородность соответствий переводов, содержащихся в корпусе. Это значит, что если корпус мультиязычный, то переводные тексты, содержащиеся в корпусе, должны в полном объеме соответствовать друг другу. То есть не должно быть частей корпуса, для которых нет переводных соответствий на каких-либо из языков, представленных в корпусе.

3. Разметка

Важное требование к разметке мультиязычного корпуса состоит в том, что она должна быть унифицированной, без расхождений в системах тэгов для разных языков. Если мы возьмем граммему, общую для нескольких языков в корпусе, например, единственное число, то мы ожидаем, что она будет обозначаться во всех языках одинаково, допустим, как SG, а не по-разному (S — в одном языке, Sing — другом). Отсутствие унифицированной разметки затрудняет процесс извлечения из корпуса необходимой информации. Если исследователь пишет программу обработки данных корпуса, то приходится прописывать отдельные условия для разных тэгов, обозначающих одно грамматическое значение в разных языках. Поэтому с недавнего времени для получения унифицированной разметки в корпусах используют парсеры, основанные на системе тэгов стандарта Universal Dependencies.

В рамках проекта Universal Dependencies была создана специальная система аннотирования языкового материала в едином формате, который при этом учитывает

особенности устройства разных языков. Участниками проекта UD была проделана колоссальная работа по систематизации тэгов и приведения их к общему формату. В разметке имеются лакуны, пока еще не получилось полностью адаптировать ее для каждого грамматического явления. Это в целом объяснимо: создание единого стандарта разметки для разноструктурных языков — непростая задача. Используя разметку по стандарту UD, исследователю в некоторых случаях придется учитывать имеющиеся различия в системе кодирования того или иного явления, но это уже заметно легче, чем приводить к общему знаменателю системы тэгов для всех языков целиком.

Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Список литературы диссертационного исследования кандидат наук Нестеренко Любовь Владимировна, 2022 год

Список литературы

1. Abraham W. Introduction: Passivization and typology 2006.C. 1-27.

2. Aijmer K. Parallel and comparable corpora // Corpus linguistics: An international handbook. 2008. (1). C. 275-291.

3. Alexiadou A., Anagnostopoulou E., Schäfer F. Passive // Syntactic Structures after 60 years: The impact of the Chomskyan revolution in Linguistics. 2018. C. 403-425.

4. Ambridge B. [и др.]. Is passive syntax semantically constrained? Evidence from adult grammatically judgment and comprehension studies // Cognitive Science. 2016. № 6 (40). C. 1435-1459.

5. Anderson L. B. Distinct sources of fuzzy data: ways of integrating relatively discrete and gradient aspects of language, and explaining grammar on the basis of semantic fields // Towards tomorrow's linguistics. 1974. C. 50-64.

6. Anderson L. B. Evidentials, paths of change, and mental maps: Typologically regular asymmetries 1986.

7. Anderson L. B. Adjectival morphology and semantic space 1987.C. 1-17.

8. Asgari E., Schütze H. Past, Present, Future: A Computational Investigation of the Typology of Tense in 1000 Languages Stroudsburg, PA, USA: Association for Computational Linguistics, 2017.C. 113-124.

9. Bresnan J., Ford M. Predicting syntax: Processing dative constructions in American and Australian varieties of English // Language. 2010. № 1 (86). C. 168-213.

10. Cermák F., Rosen A. The case of InterCorp, a multilingual parallel corpus // International Journal of Corpus Linguistics. 2012. № 3 (17). C. 411-427.

11. Chomsky N. Syntactic Structures / N. Chomsky, De Gruyter, 1957.

12. Christodouloupoulos C., Steedman M. A massively parallel corpus: the Bible in 100 languages // Language Resources and Evaluation. 2015. № 2 (49). C. 375-395.

13. Comrie B. Passive and voice 1988. C. 9.

14. Croft W. Typology and Universals / W. Croft, Cambridge University Press, 2002.

15. Croft W. Radical Construction Grammar / W. Croft, Oxford University Press, 2007.

16. Croft W. A., Shyldkrot B.-Z., Kemmer S. H. Diachronic semantic processes in the middle voice 1987.C. 179.

17. Cysouw M. Inducing semantic roles под ред. Silvia Luraghi and Heiko Narrog, 2014.C. 23-68.

18. Cysouw M., Wälchli B. Parallel texts: using translational equivalents in linguistic typology // Language typology and universals. 2007. № 2 (60). C. 95-99.

19. Dahl О. From questionnaires to parallel corpora in typology // Language Typology and Universals. 2007. № 2 (60). C. 172-181.

20. Vries L. De Some remarks on the use of Bible translations as parallel texts in linguistic research // Language Typology and Universals. 2007. № 2 (60). C. 148-157.

21. Engdahl E. Semantic and syntactic patterns in Swedish passives / E. Engdahl, Demoting the agent: Passive, middle and other voice phenomena, 2006.

22. Gale W. A., Church K. W. A Program for Aligning Sentences in Bilingual Corpora // Computational Linguistics. 1993. № 1 (19). C. 75-102.

23. Voice and Inversion под ред. T. Givon, Amsterdam: John Benjamins Publishing Company, 1994.

24. Gries S. T. A multifactorial analysis of syntactic variation: particle movement revisited // Journal of quantitative linguistics. 2001. № 1 (8). C. 33-50.

25. Haspelmath M. On S, A, P, T, and R as comparative concepts for alignment typology 2011.

26. Haspelmath M. The Grammaticization of Passive Morphology // Studies in Language. 1990. № 1 (14). C. 25-72.

27. Haspelmath M. The geometry of grammatical meaning: Semantic maps and cross-linguistic comparison 2003.

29. Kazenin K. I. Passive voice 2001.C. 899-915.

30. Keenan E. L., Dryer M. S. Passive in the world's languages под ред. T. Shopen, Cambridge: Cambridge University Press,C. 325-361.

31. Kiparsky P. Towards a null theory of the passive // Lingua. 2013. № 1 (125). C. 7-33.

32. Koehn P. Europarl: A parallel corpus for statistical machine translation 2005.C. 79-86.

33. Kulikov L. Voice Typology Oxford University Press, 2010.

34. Langacker R. W. Dimensions of defocusing 2006.C. 115-137.

35. Levshina N. Why we need a token-based typology: A case study of analytic and lexical causatives in fifteen European languages // Folia Linguistica. 2016a. № 2 (50).

36. Levshina N. Verbs of letting in Germanic and Romance languages: A quantitative investigation based on a parallel corpus of film subtitles // Languages in Contrast. 2016b. № 1 (16). C. 84-117.

37. Mayer T., Cysouw M. Creating a massively parallel Bible corpus 2014.C. 3158-3163.

38. Mayer T., Cysouw M. Language comparison through sparse multilingual word alignment 2012.C. 54-62.

39. Nedjalkov V. P., Jaxontov S. J. The Typology of Resultative Constructions 1988.C. 3.

40. Nesterenko L. V. Multilingual parallel corpora: Alternative source of language data for typological studies, applying perspectives and problems // Voprosy Jazykoznanija. 2019. № 2. C. 111-125.

41. Nivre J. [и др.]. {U}niversal {Dependencies v1: A Multilingual Treebank Collection Portoroz, Slovenia: European Language Resources Association (ELRA), 2016.C. 1659-1666.

42. Ojala M., Garriga G. C. Permutation tests for studying classifier performance. // Journal of Machine Learning Research. 2010. № 6 (11).

43. Ostling R. 6. Studying colexification through massively parallell corpora Berlin, Boston: De Gruyter, 2016.

44. Ostling R., Tiedemann J. Efficient Word Alignment with Markov Chain Monte Carlo // The Prague Bulletin of Mathematical Linguistics. 2016. № 1 (106). C. 125-146.

45. Pedregosa F. [и др.]. Scikit-learn: Machine Learning in {P}ython // Journal of Machine Learning Research. 2011. (12). C. 2825-2830.

46. Sanso A. Grammaticalization and prototype effects: A history of the agentive reflexive passive in Italian // 2011.

47. Sanso A. «Agent defocusing» revisited 2006.C. 232-273.

48. Say S. 'Passive' // Encyclopedia of Slavic Languages and Linguistics Online. 2021a

49. Say S. Nominal causal constructions across Slavic: semantic contrasts in a parallel corpus perspective // Slavia-casopis pro slovanskou filologii. 2021b. № 2 (90). C. 182-201.

50. Shannon P. [и др.]. Cytoscape: a software environment for integrated models of biomolecular interaction networks // Genome research. 2003. № 11 (13). C. 2498-2504.

51. Sharoff S. Meaning as use: exploitation of aligned corpora for the contrastive study of lexical semantics // 2002.

52. Shibatani M. Passives and Related Constructions: A Prototype Analysis // Language. 1985. № 4 (61). C. 821.

53. Siewierska A., Bakker D. Passive agents: prototypical vs. canonical passives под ред. D. Brown, M. Chumakina, G. G. Corbett, 2013.

54. Sitchinava D. V, others Parallel corpora within the Russian National Corpus // Prace Filologiczne. 2012. № 63. C. 271-278.

55. Slobin D. Passives and Alternatives in Children's Narratives in English, Spanish, German, and Turkish под ред. B. A. F. and P. J. Hopper, 1994.

56. Stambolieva M. Parallel corpora in aspectual studies of non-aspect languages 2011.C. 39-42.

57. Straka M., Strakova J. Tokenizing, POS Tagging, Lemmatizing and Parsing UD 2.0 with UDPipe Stroudsburg, PA, USA: Association for Computational Linguistics, 2017.C. 88-99.

58. Takagaki T. On the Productivity of the Spanish Passive Constructions John Benjamins, 2005.C. 289-309.

60. Tiedemann J. News from OPUS — A collection of multilingual parallel corpora with tools and interfaces под ред. N. Nicolov [и др.]., 2009.C. 237-248.

61. Tomlin R. S. Focal attention, voice, and word order 1995.C. 517.

62. Van Auwera J. Der, Plungian V. A. Modality's semantic map // Linguistic Typology. 1998. № 1 (2). C. 79-124.

63. Waldenfels R. von Compiling a parallel corpus of Slavic languages. Text strategies, tools and the question of lemmatization in alignment // Beiträge der europäischen slavistischen Linguistik (POLYSLAV). 2006. (9). C. 123-138.

64. Wälchli B. Advantages and disadvantages of using parallel texts in typological investigations // STUF - Sprachtypologie und Universalienforschung. 2007. № 2 (60). C. 118-134.

65. Wälchli B., Cysouw M. Lexical typology through similarity semantics: Toward a semantic map of motion verbs // Linguistics. 2012. № 3 (50). C. 671-710.

66. Zuniga F., Kittilä S. Grammatical Voice / F. Zuniga, S. Kittilä, Cambridge University Press, 2019.

67. Бонч-Осмоловская А. А. Нестеренко Л. В. Сети как инструмент поиска и находок в мультиязычных параллельных корпусах. под ред. Д. А. Рыжова [и др.]., Лабиринт, 2018.C. 305-320.

68. Добровольский Д. О. Корпус параллельных текстов в исследовании культурно-специфичной лексики 2009.C. 383-400.

69. В. А. Плунгян Введение в грамматическую семантику: грамматические значения и грамматические системы языков мира, РГГУ, 2011

70. Сичинава Д. В. Параллельные тексты в составе национального корпуса русского языка: новые направления развития и результаты // Труды Института русского языка им. ВВ Виноградова. 2015. (6). C. 194-235.

71. Сичинава Д. В. Европейский перфект сквозь призму параллельного корпуса // Acta Linguistica Petropolitana. Труды института лингвистических исследований. 2016. № 2 (12). C. 85-114.

72. Я.Г. Тестелец Введение в общий синтаксис / Я.Г. Тестелец, РГГУ, 2001.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.