Семантическая разметка художественных текстов для количественных исследований в филологии: на примере романа "Война и мир" Л.Н. Толстого

Скоринкин, Даниил Андреевич

Семантическая разметка художественных текстов для количественных исследований в филологии: на примере романа "Война и мир" Л.Н. Толстого тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат наук Скоринкин, Даниил Андреевич

Скоринкин, Даниил Андреевич
кандидат наук
2018

Специальность ВАК РФ10.02.21

Количество страниц 164

Скоринкин, Даниил Андреевич. Семантическая разметка художественных текстов для количественных исследований в филологии: на примере романа "Война и мир" Л.Н. Толстого: дис. кандидат наук: 10.02.21 - Прикладная и математическая лингвистика. Москва. 2018. 164 с.

Оглавление диссертации кандидат наук Скоринкин, Даниил Андреевич

Оглавление

Введение

1 Теоретические аспекты моделирования персонажа и системы персонажей

1.1 Модель персонажа в традиционном литературоведении

1.1.1 Персонаж как текстовая переменная и формальный актант

1.1.2 Персонаж как психологический субъект и модель личности

1.1.3 Синтез двух направлений анализа персонажа

1.2 Компьютерное моделирование системы персонажей

1.2.1 Компьютерное моделирование персонажей на основе речевых характеристик

1.2.2 Компьютерное моделирование персонажей при помощи сетевого анализа

1.3 Моделирование персонажей при помощи ТЕ1-разметки

1.3.1 Разметка наименований персонажей

1.3.2 Разметка речи персонажей

1.3.3 Дополнительная информация в разметке

2 Моделирование системы персонажей «Войны и мира» на основе разметки прямой речи

2.1. Методы количественного анализа прямой речи персонажей

2.1.1. Стилеметрический метод на основе частотностей слов

2.1.2. Метод комплексной оценки нелексических параметров прямой речи

2.1 Применение методов для моделирования системы персонажей

2.1.1 Подбор количественных параметров для стилеметрии

2.1.2 Моделирование системы персонажей «Войны и мира» при помощи стилеметрии

2.1.3 Моделирование системы персонажей при помощи метода комплексной оценки нелексических параметров прямой речи

2.2 Обсуждение результатов и сравнение двух методов моделирования системы персонажей на основе прямой речи

3 Моделирование системы персонажей с помощью сетевого анализа

3.1 Метод сетевого анализа системы персонажей

3.1.1 Подходы к построению сетей персонажей

3.1.2 Методы измерения центральности персонажей

3.1.3 Методы выделения сообществ в сетях

3.2 Применение методов сетевого анализа для моделирования системы персонажей «Войны и мира»

3.2.1 Центральные персонажи

3.2.2 Сообщества

3.2.3 Построение и сравнение сетей для отдельных частей «Войны и мира»

3.2.4 Анализ динамики плотности сетей в «Войне и мире»

3.3 Обсуждение результатов и сравнение методов сетевого анализа

Заключение

Список литературы

Приложения

Приложение к главе 2

Приложение к главе 3:

Визуализации сетей и таблицы центральностей персонажей «Войны и мира»

Сообщества в сетях

Визуализации сетей для отдельных частей

Введение диссертации (часть автореферата) на тему «Семантическая разметка художественных текстов для количественных исследований в филологии: на примере романа "Война и мир" Л.Н. Толстого»

Введение

В последнее десятилетие произошел качественный скачок в разработке инструментов автоматического анализа и разметки текста на естественном языке. Этот скачок стал возможен благодаря достижениям современной компьютерной лингвистики, активному заимствованию методов и алгоритмов из компьютерных наук и статистики, экспоненциальному росту объема машиночитаемых текстовых данных, а также развитию электронных лингвистических ресурсов. Современные инструменты лингвистического анализа позволяют автоматически размечать не только грамматические (морфология, синтаксис), но и некоторые семантические1 и прагматические свойства текста. Полноценное машинное понимание естественного языка по-прежнему остается в области футурологии, однако технологии компьютерной лингвистики открывают новые возможности исследования текстового материала.

Одним из важных следствий развития таких технологий стало изменение исследовательских практик во многих областях гуманитарного знания. Филологи, историки, философы и культурологи всё чаще привлекают компьютерные инструменты для сбора, обработки и анализа текстов на естественном языке, поскольку эти инструменты позволяют анализировать существенно больше источников информации и получать из них структурированные данные сравнительно большого объема. В свою очередь, наличие структурированных данных открывает широкие возможности для точных методов, таких как построение статистических моделей, корреляционный анализ, анализа сетей. В результате становятся возможными выявление неочевидных связей и зависимостей, получение интерпретируемых количественных характеристик объектов исследования, установление статистической значимости результатов анализа.

Количественный поворот в гуманитарных исследованиях особенно актуален для филологии, где стремление применять точные методы в исследованиях возникло задолго до возникновения компьютерных технологий. Уже во второй половине XIX века произошло становление статистических методов атрибуции авторства [Mendenhall, 1887] и датировки [Dittenberger, 1881], [Lutoslawski, 1898] художественных текстов, а также

1 Находясь в рамках специальности 10.02.21 «Прикладная и математическая лингвистика», мы в настоящей работе понимаем семантику так, как понимает ее современная компьютерная лингвистика. Разметка называется семантической в том случае, если с ее помощью в тексте формально выделены слова или словосочетания, относящиеся к одной смысловой категории или к одному семантическому полю [Кустова et а1., 2005] Таким образом, семантическая разметка связана с содержательной, а не грамматической или синтаксической информацией текста. Разметку именованных сущностей, событий (например, фактов речевой активности) в компьютерной лингвистике относят к семантической разметке текста (см. например [Батура, 2016], [Beltagy et а1, 2014])

связанных с ними количественных исследований стилистики через частотность слов [Lutoslawski, 1898]. В 1893 г. был опубликован учебник по «литературной аналитике» [Sherman, 1893], автор которого в духе позитивизма того времени предрек сближение методов литературоведения как университетской дисциплины с инструментами точных наук.

Отечественная традиция применения статистики в исследовании стихотворного метра начала формироваться несколько раньше. Например, Н. Г. Чернышевский производил подсчеты распределения различных размеров в лирике Пушкина, количественно подтверждая доминирование ямба, и сопоставлял эти данные с подсчетами распределения ударений в русском прозаическом тексте [Чернышевский, 1974 (впервые — 1855)]. Таким образом критик надеялся доказать, что для русского языка более органичны не ямб или хорей, а трехсложные размеры. Несколько позже Л. И. Поливанов анализировал ритмику русского александрийского стиха [Поливанов, 1892, цит. по Шапир, 2005]. Опубликованное в 1900 году фундаментальное исследование Н. И. Новосадского, посвященное орфическим гимнам, содержало раздел «Особенности метра орфических гимнов» [Новосадский, 1900: c. 114-171]. В этом разделе был представлен большой объем статистики по формам гекзаметра орфических гимнов — Новосадский показывал, что статистические показатели гимнов сближаются с таковыми у Гомера и Гесиода. Во введении к работе Новосадский отметил, что «изучение метров и языка гимнов должно поставить в такие условия, чтобы выводы не зависели от личных впечатлений, а это возможно только при статистическом методе исследования» [Новосадский, 1900: c. III]. Также Новосадский применял для сравнения гимнов с текстами Гомера статистику по отдельным частям речи. Уже в начале XX века знакомый с трудами Н. И. Новосадского выпускник гимназии Л. И. Поливанова Андрей Белый, поэт и теоретик символизма, опубликовал исследование [Белый, 1910] с применением количественного анализа четырехстопного ямба. Несколько лет спустя начал публиковать статистические исследования русского стиха и Б. В. Томашевский, соединявший в себе литературоведа, дипломированного инженера и профессионального статистика [Томашевский, 1917; Томашевский, 1919]. Н. А. Морозов производил опыты по атрибуции авторства русских прозаических текстов [Морозов, 1915], опираясь на упомянутую выше работу [Lutoslawski, 1898]. М. О. Лопатто произвел лингвостатистический анализ прозы Пушкина [Лопатто, 1918]. Эти исследования совпали по времени со становлением формалистского движения в филологии.

Ключевые теоретики формализма — В. Б. Шкловский, Б. М. Эйхенбаум, Ю. Н. Тынянов — сами не вели исследований с применением точных методов. Однако выдвинутая ими установка на «научность», «пропаганда объективно-научного отношения к фактам», «пафос научного позитивизма» [Эйхенбаум, 1987: с. 379], требование выдерживать

«научную критику» [Шкловский, 1929 (1917)] значительно повлияли на литературоведение в целом [Дмитриев, Левченко, 2001], прямо или косвенно вдохновили и продолжают вдохновлять исследователей. Кроме того, фокусирование на анализе специфики формы художественного произведения и функциях отдельных ее элементов так же располагало к попыткам изучения структуры текста с применением формальных методов. Одновременно с формалистами развивал свои идеи «морфологического» (фактически — структурного) анализа фольклорных текстов В. Я. Пропп. Его «Морфология сказки» [Пропп, 1928] по сей день оказывает огромное влияние на всевозможные формальные исследования сюжета. Предложенные им сюжетные функции используются в современных количественных исследованиях — см. например [Fisseni et al., 2014].

Наконец, целый ряд исследований художественных текстов с применением методов математической статистики осуществил в 1920-е - 1930-е годы Б. И. Ярхо. Результатом стала подробная «Методология точного литературоведения», описанием которой Б. И. Ярхо занимался в последние годы своей жизни. Эта работа, изданная лишь в 2006 году [Ярхо, 2006], сегодня представляет интерес не только как памятник труда исследователя-одиночки, обогнавшего свое время, но и как источник идей, методов и готовых исследовательских сценариев для количественного анализа различных аспектов художественного творчества [Шапир, 2005]. Таким образом, в филологии задолго до начала компьютерной эпохи сформировалась теоретическая основа для применения точных методов и количественного анализа.

Сегодня, в свете развития цифровых подходов в гуманитарных науках, работы филологов прошлого, применявших точные методы (как Б. И. Ярхо) или создавших удачные масштабируемые формальные модели (как В. Я. Пропп), вызывают новую волну интереса в научном мире. Ссылки на исследования Б. И. Ярхо и В. Я. Проппа появляются в статьях и докладах, посвященных количественным исследованиям литературы (см. для примера [Bernhard et al., 2018, с. 217], [Puckett 2016: с. 188], [Forstall et al., 2016]). В 2015 году в Стэнфордском университете состоялась конференция «Russian Formalism & the Digital Humanities», посвященная разноуровневым перекличкам между «русским формализмом» (понимаемым на Западе более широко, чем в отечественной науке: В. Я. Проппа и Б. И. Ярхо в западных работах обычно ассоциируют с формализмом [Волкова, 2011], что, строго говоря, не является верным), — и цифровыми гуманитарными исследованиями. Участвовавший в конференции филолог И. А. Пильщиков отметил, что «с развитием информационно-коммуникационных технологий и цифровых гуманитарных исследований, некоторые проекты статистических исследований, которые казались слишком масштабными и трудоемкими 80 лет назад (такие как программа Бориса Ярхо по синхронному и диахроническому исследованию всех уровней художественных текстов)

сегодня находятся в пределах наших возможностей» [Russian Formalism & the Digital Humanities, 2015, перевод наш]. Схожую мысль — что количественные филологические исследования в духе Б. И. Ярхо сегодня более осуществимы благодаря информационным технологиями — высказывает О. Собчук в статье «Номотетическое литературоведение: пунктирный набросок» (под «номотетическим» в работе понимается подход, направленный на выявление общих закономерностей и противостоящий в этом чисто описательному, герменевтическому подходу). Автор приводит цитату из Б. И. Ярхо о том, что задача составления «сравнительного словаря образно (то есть чувственно и эмоционально) значимых слов в комедиях и трагедиях Корнеля» может «убить годы квалифицированного времени». Цитата сопровождается следующим комментарием: «Конечно, даже теперь компьютер не решит некоторых задач такого рода (например, ему трудно объяснить, что такое «образно значимые слова»), однако о сроках в месяцы или годы речи больше не идет» [Собчук, 2016]. Там же несколькими строками ранее описывается потенциал цифровых методов в филологии для анализа больших текстовых корпусов: «Типичная для филологов практика "медленного чтения" (close reading) в номотетических исследованиях сменяется "чтением" с большого расстояния. С помощью хорошо сконструированной компьютерной программы можно "прочесть" десятки или сотни романов» [Собчук, 2016]. Далее высказывается надежда на плодотворное соединение новых количественных и экспериментальных методов с традиционными филологическими исследовательскими подходами: «Количественные и экспериментальные методы исследования литературы и культуры, скорее всего, станут важной составляющей гуманитарных наук в XXI веке. Вряд ли они вытеснят традиционные исследовательские методы, однако можно быть уверенным, что они заставят последние потесниться. И, вполне возможно, следствием соседства двух чтений — дальнего и медленного — окажется не схватка насмерть, а плодотворный симбиоз» [Собчук, 2016]. Таким образом, представители филологического сообщества сегодня вновь стремятся внедрять точные методы в исследования, причем надежды связываются с развитием цифровых технологий и автоматических методов анализа текстов. Однако применение автоматических методов и проведение количественных исследований осложняется вторым обстоятельством — а именно высокой содержательной сложностью и многоплановостью моделируемых объектов. Инструменты компьютерной лингвистики позволяют разметить и исследовать языковые свойства текста — морфологические характеристики слов, синтаксическую структуру предложения, семантические классы слов; но многие действительно значимые элементы поэтики текста остаются за пределами возможностей этих инструментов. Например, нет программного средства, которое позволило бы разметить в тексте сюжетные мотивы — причем не только потому, что выражение мотива в тексте может иметь самую разную форму и этому трудно научить

машину; но еще и потому, что сама разработка структуры для такой разметки (т.е. буквальных правил выбора элементов текста, которые должны или не должны быть размечены) — сложная филологическая проблема с множеством потенциальных решений, ни одно из которых не будет бесспорным. Между тем структурирование данных для цифрового количественного анализа предполагает однозначную, дискретную разметку: необходимо недвусмысленно «указать» машине, где в тексте выражен мотив, а где нет. Строгость и однозначность инструкций должна быть достаточной для того, чтобы воспроизвести разметку на других текстах другими исследователями. В результате в количественных исследованиях литературы активнее и успешнее всего развиваются направления компьютерной стилистики (стилеметрии) [Burrows, 2002], [Burrows, 2007], [Rybicki, 2006], [Мухин, 2010], [Мухин, 2011], [Eder, 2015], [Franzini et. al, 2018] и тематического моделирования [Jockers, 2015], [Schoch, 2018], для реализации которых разметка не нужна — достаточно использовать самые простые способы автоматической обработки текста, такие как подсчет частотностей словоформ или даже сочетаний буквенных символов.

Вместе с тем в последние годы растет число работ, в которых предпринимаются попытки подойти со стороны количественного лингвистического анализа к изучению более сложных составляющих художественного текста, чем распределение частотностей слов. В частности, появляются количественные исследования, целью которых является анализ системы персонажей художественного произведения (или целой коллекции произведений). Например, в [Hoover, 2017], [Culpeper, 2014] количественными методами исследуются речевые портреты персонажей (более подробный анализ работ в этом направлении см. в разделе 1.2.1 главы 1 ниже). Однако исследования такого рода малочисленны, что связано с их высокой трудоемкостью уже на этапе подготовки текста. Для количественного анализа прямой речи персонажей ее необходимо выделить в тексте и связать с однозначно идентифицированным персонажем, что является самостоятельной сложной задачей. Другое направление количественных исследований, связанное с выделением свойств персонажей в тексте, — сетевой анализ. В числе работ последних лет можно упомянуть [Grayson et al., 2016], [Algee-Hewitt, 2017], [Fischer et al., 2018] (более подробный анализ исследований в этом направлении см. в разделе 1.2.2 главы 1 ниже). Однако такие работы сосредоточены преимущественно на анализе пьес: структура драматического текста позволяет гораздо проще извлекать из него однозначно идентифицируемые упоминания персонажей и факты их взаимодействия. Работы, в которых объектом исследования становятся прозаические тексты, часто не выходят за пределы решения задачи извлечения сети персонажей на основе текста и ее визуализации — поскольку эта задача также является самостоятельной научной проблемой.

Преодолеть сложности, препятствующие развитию количественных исследований персонажа и системы персонажей, можно путем создания стандартизированной машиночитаемой семантической разметки художественных текстов. Такая разметка позволяет хранить дополнительный смысловой слой (например, все упоминания одного персонажа в виде одной цепочки вне зависимости от конкретного выражения в тексте, или все вхождения прямой речи персонажа) без отрыва от исходного текстового материала. Этот слой является машиночитаемым, то есть может быть автоматически считан из документа программой и переведен в однозначные структурированные данные (например, таблицу всех вхождений прямой речи с однозначной припиской каждой реплики к идентификатору произносящего ее персонажа). Это позволяет производить количественный анализ системы персонажей без сложной предварительной подготовки данных. Однако сегодня, несмотря на появление работ, специально направленных на моделирование персонажа и системы персонажей, данные в большинстве случаев извлекаются напрямую из текста, с неизбежными при этом ошибками, без возможности воспроизведения результата и уточнения разметки (работы-исключения специально отмечены в разделах 1.2.1 и 1.2.2 главы 1), а обсуждение разметки не производится. Актуальность диссертационного исследования состоит в разработке инструментария автоматизированной разметки с использованием современных методов компьютерной лингвистики и демонстрации его применения для количественного исследования. Данный подход позволяет преодолеть описанный выше разрыв между возможностями средств автоматического анализа языка и задачами филологического исследования художественного произведения. Семантическая машиночитаемая разметка художественного текста, предназначенная для количественных исследований системы персонажей, предложена и осуществлена на примере книги Л. Н. Толстого «Война и мир». Таким образом показано возможное использование современных инструментов компьютерной лингвистики и статистических методов анализа данных для исследования содержательных элементов художественного произведения.

Объектом исследования, таким образом, является текстовая репрезентация системы персонажей в прозаическом художественном произведении крупной формы. Предметом исследования выступают параметрические характеристики персонажей, извлекаемые из текста с опорой на семантическую разметку. Выбор объекта и предмета принципиально отличает диссертацию от упомянутых выше стилеметрических работ. Выбирая в качестве объекта систему персонажей, мы стремились приложить компьютерно-лингвистические инструменты к анализу одного из компонентов содержания художественного произведения, его сюжета, а не стиля.

Персонаж произведения — это, с одной стороны, сложно устроенный художественный образ, рукотворная модель личности, которая может быть как упрощенной (схематической, стереотипной), так и весьма сложной в своих художественных воплощениях. В то же время даже сложный художественный образ порождается вполне конкретной последовательностью упоминаний в тексте — ср. такое функциональное определение Л. Я. Гинзбург: «Литературный персонаж — это, в сущности, серия последовательных появлений одного лица в пределах данного текста» [Гинзбург, 1979, с. 89]. Текстовые вхождения персонажа могут быть различными: варианты имени (Андрей, Андрюша, André), титулы и гоноративы (князь, сиятельство), анафорические упоминания (он, она), обращения в речи других персонажей (любезный, вы), ролевые и ситуативные характеристики (молодой человек, проезжающий, раненый) и др. Однако принципиально важно, что такие вхождения имеют явные границы и формализуемые лингвистические признаки (имя собственное, личное местоимение, гоноратив) и поэтому оказываются доступными для разметки существующими средствами компьютерной лингвистики. Таким образом, персонаж оказывается тем элементом содержания художественного произведения, который сочетает в себе художественную сложность и глубину с возможностью автоматизированной разметки в тексте.

В большом романе число вхождений одного персонажа может измеряться тысячами. «Персонаж исчезает, уступает место другим, с тем чтобы через несколько страниц опять появиться и прибавить еще одно звено к наращиваемому единству. Повторяющиеся, более или менее устойчивые признаки образуют свойства персонажа» [Гинзбург, 1979, с. 89]. С точки зрения лингвистики текста каждое новое вхождение персонажа может быть охарактеризовано рядом признаков, указывающих на специфику окружающего его контекста и грамматические (словоизменительные) свойства соответствующих лексем. Это открывает широкие возможности для количественного исследования персонажей. Целью диссертации была поставлена разработка и апробация метода анализа системы персонажей художественного произведения с опорой на семантическую разметку текста. Для достижения указанной цели были решены следующие задачи:

1. Исследованы теоретические аспекты моделирования системы персонажей художественного произведения, произведен анализ существующих работ.

2. Осуществлена автоматическая разметка упоминаний персонажей в тексте «Войны и мира». Выделенные вхождения связаны в единые кореферентные цепочки, соответствующие одному конкретному персонажу, при помощи уникального идентификатора персонажа.

3. Осуществлена полуавтоматическая разметка прямой речи персонажей в тексте «Войны и мира».

4. На основе подготовленной разметки:

a. Осуществлен статистический анализ прямой речи персонажей с использованием двух различных методов, произведено сравнение методов.

b. Построены сети взаимодействия персонажей с использованием двух различных методов, произведено сравнение методов.

Новизна работы заключается, во-первых, в сравнении различных методов анализа на едином материале. Такой подход, будучи стандартным в лингвистике (например, [Panchenko et al., 2018], [Mohammad et al., 2018], [Zeman et al., 2017]), до сих пор практически не применялся в количественном литературоведении. В частности, в диссертации были сопоставлены два метода анализа прямой речи персонажей (на основе лексического состава реплик и нелексических характеристик) и два метода сетевого анализа (на основе диалоговых взаимодействий и совместной встречаемости в тексте). Во-вторых, в адаптации методов современной компьютерной лингвистики (извлечение именованных сущностей, разрешение анафоры, извлечение событий) к исследованию художественного произведения на русском языке. В-третьих, в научный оборот введены новые количественные характеристики персонажей (интенсивность взаимодействия, параметрические характеристики произносимых реплик).

Выбор книги «Война и мир» в качестве материала для демонстрации предлагаемого в работе подхода объясняется, во-первых, объемом толстовского текста, который делает его количественное исследование осмысленным, во-вторых, вариантностью вхождений каждого персонажа в текст, сложностью системы персонажей и многообразием проявлений взаимодействия ее элементов, в-третьих, общеизвестностью, которая превращает произведение Л. Н. Толстого в подходящий материал для демонстрации новых методов. По той же причине в англоязычных исследованиях часто используется роман Джейн Остин «Гордость и предубеждение» — см. например [Burrows, 1987], [DeForest, Johnson, 2001] [Ardanuy, Sporleder, 2014], [Vala et al., 2015]; ср. также пояснение формалиста В. Б. Шкловского в статье «Искусство как прием»: «Прием остранения не специально толстовский. Я вел его описание на толстовском материале из соображений чисто практических, просто потому, что материал этот всем известен». [Шкловский, 1929, с. 17]). Многие другие отечественные литературоведы в работах, затрагивающих общие вопросы теории литературы, приводили для демонстрации именно примеры из Л. Н. Толстого. Кроме того, в целом роман XIX века является одним из хорошо исследованных литературных жанров, что позволяет использовать новые количественные методы как дополнительные инструменты проверки литературоведческих гипотез, высказанных исследователями ранее.

Теоретическая значимость диссертации состоит в сравнении различных методов количественного анализа и моделирования системы персонажей художественного произведения на открытом доступном для других исследователей материале (семантически размеченном тексте книги «Война и мир»). Результаты сравнения позволяют говорить о том, какие именно особенности и соотношения в системе персонажей высвечивает тот или иной метод, и какие свойства он не фиксирует. Показаны ограничения ряда методов, которые ранее не учитывались или не обозначались исследователями (см. анализ работ в главе 1).

На защиту выносятся следующие положения:

1. Современные средства автоматической обработки текста могут использоваться для извлечения и структурирования значимой информации о системе персонажей художественного произведения в форме семантической разметки.

2. Подготовленная разметка позволяет осуществлять анализ системы персонажей с применением количественных методов (анализ частотностей, многофакторный статистический анализ, корреляционный анализ, сетевой анализ).

3. Выбор конкретного метода анализа данных, получаемых из разметки, влияет на то, какие именно свойства системы персонажей будут отражены в полученной модели.

Практическая значимость работы заключается, во-первых, в создании семантической разметки текста книги «Война и мир». Разметка опубликована и доступна для использования другими исследователями, в т.ч. за рубежом. Так как разметка сделана на основе международного формата кодирования текстов TEI, она дает возможность производить подсчеты и манипуляции с семантическими элементами толстовского текста (персонажами, фактами речевой активности) даже без знания русского языка. Разметка содержит идентифицированные упоминания персонажей, в том числе анафорические, и реплики прямой речи персонажей с однозначным указанием адресанта и адресата. Во-вторых, подготовленные визуализации сетевой структуры персонажей «Войны и мира» (см. главу 3) могут использоваться в педагогическом процессе. Так, материалы диссертации были использованы в рамках образовательной программы Лицея НИУ ВШЭ (2017/2018 уч. г.), в курсе по цифровым методам в гуманитарных науках в Университете Хельсинки (2018 г.), в лекциях на школах Центра цифровых гуманитарных исследований НИУ ВШЭ (20162018 гг.).

В рамках апробации результаты исследования были представлены на международных и российских конференциях:

• Международная конференция молодых филологов в Тарту (Тарту, 26 апреля 2015). Доклад: Семантическая и структурная разметка собрания сочинений Л.Н. Толстого по стандарту TEI (Text Encoding Initiative).

Список литературы диссертационного исследования кандидат наук Скоринкин, Даниил Андреевич, 2018 год

Список литературы

1. Аникст А.А. Теория драмы от Аристотеля до Лессинга. М.: Наука, 1967. 455 с.

2. Аристотель «Поэтика»: семь параллельных переводов [Электронный ресурс]. URL: http://nevmenandr.net/poetica/1447a8.php (дата обращения: 30.07.2018).

3. Бахтин М. М. Вопросы литературы и эстетики. М.: Художественная литература, 1975. 504 с.

4. Андрей Белый. Символизм. Книга статей. М.: Мусагет, 1910. 633 с.

5. Барт Р. Введение в структурный анализ повествовательных текстов // Зарубежная эстетика и теория литературы XIX-XX вв. Трактаты, статьи, эссе. - М: Изд-во Московского университета. 1987

6. Барт Р. S/Z. М.: Эдиториал УРСС, 2001. 232 с.

7. Батура Т. В. Семантический анализ и способы представления смысла текста в компьютерной лингвистике // Программные продукты и системы. 2016. № 4. С. 4557.

8. Бочаров С. Г. Роман Л. Толстого «Война и мир». Издание третье. М.: Художественная литература, 1978. 103 с.

9. Великанова Н. П. Золотое сечение «Войны и мира» // Александр Гордон. Научный альманах. М.: Поматур, 2003. С. 177-192.

10. Виноградов В. В. Избранные труды. О языке художественной прозы. М.: Наука, 1980. 362 с.

11. Волкова Е.Г. Методология исследований В. Я. Проппа: между формализмом и структурализмом // Преподаватель XXI век. 2011. № 4-2. С. 226-229.

12. Гинзбург Л.Я. О литературном герое. Л.: Советский писатель, 1979. 224 с.

13. Гораций. О поэтическом искусстве. Перевод А. А. Фета. М.: Наука, 1981.

14. Греймас А.-Ж. Размышления об актантных моделях // Вестник Московского университета. Сер. 9. Филология, 1996, № 1.

15. Дмитриев А., Левченко Я. Наука как прием. Еще раз о методологическом наследии русского формализма // Новое литературное обозрение. 2001. № 50. С. 230-235.

16. Кустова Г. И., Ляшевская О. Н., Падучева Е. В., Рахилина Е. В. Семантическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2005, С. 155-174.

17. Лопатто М. О. Повести Пушкина: Опыт введения в теорию прозы. // Пушкинист. Историко-литературный сборник. Под ред. С. А. Венгерова, Вып. III. Пг., 1918. С. 3-50.

18. Лотман Ю. М. Об искусстве. - СПб.: «Искусство - СПБ», 1998. - С. 14 - 285

19. Миронова Г. С. Болконские и Курагины: «Мир» и «Антимир» в романе-эпопее Л. Н. Толстого // Гуманитарные ведомости ТГПУ им. Л.Н. Толстого. 2014. № 3 (11). С. 54-62.

20. Мухин М. Ю. Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова. [Текст]: дис. ... докт. филологических наук. Екатеринбург., 2011. 384 с.

21. Мухин М. Ю. Лексическая статистика и концептуальная система автора: М. Булгаков, В. Набоков, А. Платонов, М. Шолохов. Екатеринбург: Изд-во Уральского федерального университета, 2010. 230 с.

22. Новосадский Н.И. Орфические гимны. Варшава: Типография варшавского учебного округа, 1900.

23. Овсянико-Куликовский Д. Н. История русской интеллигенции. Изд. второе. Ч. 1. М.: В. М. Саблин, 1908.

24. Панченко А. и др. RUSSE'2018: дорожка по извлечению значений слов из текстов русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». М.: Издательский центр «Российский государственный гуманитарный университет», 2018. С. 547564.

25. Поливанов Л. И. Русский александрийский стих//Ж. Расин. Гофолия (АШаНе): Трагедия в 5-ти действиях в стихах (1691)/Пер. с фр. размером подлинника Л. Поливанова. М., 1892

26. Сапогов В. А. Некоторые характеристики драматургического построения комедии А. Н. Островского «Лес» // А.Н. Островский и русская литература. Кострома: [Яросл. пед. ин-т], 1974. С. 60-69.

27. Скафтымов А. П. Поэтика художественного произведения. Москва. Высшая школа, 2007. 536 с.

28. Скоринкин Д. А., Бонч-Осмоловская А. А. «Особые приметы» в речи художественных персонажей: количественный анализ диалогов в «Войне и мире» Л. Н. Толстого // Электронный научно-образовательный журнал «История». 2016. Т. 7. № 7 (51)

29. Скоринкин Д., Фишер Ф., Пальчиков Г. Разработка корпуса для анализа русских драматических текстов: состав, структура, исследовательские сценарии // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». М.: Издательский центр «Российский государственный гуманитарный университет», 2018. С. 662-682.

30. Скоринкин Д. А. Электронное представление текста с помощью стандарта разметки TEI // Вестник Московского университета. Серия 9: Филология. 2016. № 5. C. 90-108.

31. Сливицкая О. В. «Война и мир» Л. Н. Толстого: Проблемы человеческого общения. Л.: Издательство Ленинградского университета, 1988. 192 с.

32. Собчук О. Номотетическое литературоведение: пунктирный набросок // Новое литературное обозрение. 2015. № 2(132). С. 102-114.

33. Старостин А. и др. FactRuEval 2016: тестирование систем выделения именованных сущностей и фактов для русского языка // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». Москва: Изд-во РГГУ, 2016. С. 702-721.

34. Степанова M. и др. Извлечение информации на основе глубокого синтактико-семантического анализа // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». Москва: Изд-во РГГУ, 2016. С. 721-733.

35. Толстой. Л. Н. Собрание сочинений в 22 томах. М.: Художественная литература, 1979. Т. 4

36. Толстой Л. Н. Собрание сочинений в 22 томах. М.: Художественная литература, 1980 (a). Т. 5

37. Толстой Л. Н. Собрание сочинений в 22 томах. М.: Художественная литература, 1980 (b). Т. 6

38. Толстой Л. Н. Несколько слов по поводу книги «Война и мир» // Толстой Л. Н. Собрание сочинений в 22 тт. М.: Художественная литература, 1981. Т. 7. С. 356— 366.

39. Толстой Л. Н. Полное собрание сочинений. Серия третья «Письма». Том 61. М.: Художественная литература, 1953.

40. Томашевский Б. В. Теория литературы. Поэтика. М.: Аспект Пресс, 1999. 334 с.

41. Томашевский Б. В. Пятистопный ямб Пушкина (1919) // Избранные работы о стихе. Учеб. пособие. СПб.: Филологический ф-т СПбГУ, 2007. С. 140-243.

42. Томашевский Б. В. Ритмика четырехстопного ямба по наблюдениям над стихом «Евгения Онегина» (1917) // Избранные работы о стихе. Учеб. пособие. СПб.: Филологический ф-т СПбГУ, 2007. С. 101-140.

43. Тынянов Ю. Н. Проблема стихотворного языка. Л.: Academia, 1924. 139 с.

44. Феофраст. Характеры / Перев., статья и примеч. Стратановского Г.А. Л.: Наука, 1974.

45. Чернышевский Н. Г. Собрание сочинений в пяти томах. Том 3. Литературная критика. М.: Правда, 1974. 1207 с.

46. Шапир М. И. «Тебе числа и меры нет». О возможностях и границах «точных методов» в гуманитарных науках // Вопросы языкознания. 2005. № 1. С. 43-62.

47. Шкловский, В. Б. Матерьял и стиль в романе Льва Толстого «Война и мир». М.: Федерация, 1928. 249 с.

48. Шкловский В. Б. О теории прозы. М.: Федерация, 1929. 265 с.

49. Эйхенбаум Б. М. Работы о Льве Толстом. СПб.: Факультет филологии и искусств СПбГУ, 2009. 952 с.

50. Эйхенбаум Б. М. О литературе. М.: Советский писатель, 1987. 540 с.

51. Ярхо Б. И. Методология точного литературоведения: Избранные труды по теории литературы. М.: Языки славянских культур, 2006. 927 с.

52. Agarwal A., Corvalan A, Jensen J., Rambow O. Social Network Analysis of Alice in Wonderland // Proceedings of the NAACL-HLT 2012 Workshop on Computational Linguistics for Literature. Montréal, Canada: Association for Computational Linguistics, 2012. P. 88-96.

53. Agarwal A., Kotalwar A., Rambow O. Automatic Extraction of Social Networks from Literary Text: A Case Study on Alice in Wonderland // Proceedings of the 6th International Joint Conference on Natural Language Processing (IJCNLP 2013). Nagoya, Japan: IJCNLP, 2013.

54. Alberich R., Miro-Julia J., Rossello F. Marvel Universe looks almost like a real social network [Электронный ресурс]. 2002. URL: https://arxiv.org/abs/cond-mat/0202174 (дата обращения: 30.08.2018).

55. Algee-Hewitt M. Distributed Character: Quantitative Models of the English Stage, 15501900 // New Literary History. 2017. Vol. 48. № 4. P. 751-782.

56. Al-Yahya M. Stylometric analysis of classical Arabic texts for genre detection // The Electronic Library. [Электронный ресурс]. 2018. URL: https://doi.org/10.1108/EL-11-2017-0236.

57. Ardanuy M., Sporleder C. Structure-based Clustering of Novels // EACL 2014: Proceedings of the 3rd Workshop on Computational Linguistics for Literature (CLfL). Gothenburg, Sweden: Association for Computational Linguistics, 2014. P. 9-31.

58. Bastian M., Heymann S., Jacomy M. Gephi: An Open Source Software for Exploring and Manipulating Networks // Abstract of the International AAAI Conference on Weblogs and Social Media. 2009.

59. Beltagy I., Erk K., Mooney R. Semantic Parsing using Distributional Semantics and Probabilistic Logic // Proceedings of the ACL 2014 Workshop on Semantic Parsing. Baltimore, MD: Association for Computational Linguistics, 2014. P. 7-11.

60. Blessing A. и др. An End-to-end Environment for Research Question-Driven Entity Extraction and Network Analysis // Proceedings of the Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature. Vancouver, Canada: Association for Computational Linguistics, 2017. P. 5767.

61. Blondel V.D. и др. Fast unfolding of communities in large networks // Journal of Statistical Mechanics: Theory and Experiment. 2008. Vol. 10. P. 1008.

62. Bodrova A., Bocharov V. Relationship Extraction from Literary Fiction [Электронный ресурс]. 2014. URL: http://www.dialog-21.ru/digests/dialog2014/materials/pdf/BodrovaAABocharovVV.pdf (дата обращения: 30.08.2018).

63. Bogdanov A. Skorinkin D., Dzhumaev S., Starostin A. Anaphora analysis based on ABBYY Compreno linguistic technologies // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4 — 8 июня 2014 г.). Москва: Изд. РГГУ, 2014. С.89-102.

64. Bonch-Osmolovskaya А., Skorinkin D., Sidorova E. Verbal Identity of a Fictional Character: a Quantitative Study with a Machine Learning Experiment // Digital Humanities 2016. Conference Abstracts. Krakow: Jagiellonian University, 2016. P. 747749.

65. Bonch-Osmolovskaya A., Skorinkin D. Text mining War and Peace: Automatic extraction of character traits from literary pieces // Digital Scholarship in the Humanities. 2017. Vol. 32. suppl_1. P. i17-i24.

66. Brooke J., Hammond A., Hirst G. Using models of lexical style to quantify free indirect discourse in modernist fiction // Digital Scholarship in the Humanities. 2017. Vol. 32. № 2. P. 234-250.

67. Burrows J. 'Delta': a Measure of Stylistic Difference and a Guide to Likely Authorship // Literary and Linguistic Computing. 2002. Vol. 17. № 3. P. 267-287.

68. Burrows J.F. Computation into criticism: a study of Jane Austen's novels and an experiment in method. Oxford: Clarendon Press, 1987.

69. Chatman S. Story and Discourse: Narrative Structure in Fiction and Film. Ithaca: Cornell University Press, 1978. 277 p.

70. Chaturvedi S., Srivastava S., Daume H., Dyer C. Modeling Dynamic Relationships Between Characters in Literary Novels // CoRR. 2015.

71. Clay G.R. Tolstoy's Phoenix: From Method to Meaning in War and Peace. Evanston: Northwestern University Press, 1998. 142 p.

72. Culpeper J. Keywords and Characterization: An Analysis of Six Characters in Romeo and Juliet // Digital Literary Studies: Corpus Approaches to Poetry, Prose, and Drama. New York, London: Taylor & Francis, 2014. P. 9-34.

73. Dalen-Oskam K. van, Zundert J. van. Delta for Middle Dutch—Author and Copyist Distinction in Walewein // Literary and Linguistic Computing. 2007. Vol. 22. № 3. P. 345-362.

74. Dittenberger W. Sprachliche Kriterien für die Chronologie der Platonischen Dialoge // Hermes. 1881. Vol. 16. № 3. P. 321-345.

75. Eder J., Jannidis F., Schneider R. Characters in Fictional Worlds: Understanding Imaginary Beings in Literature, Film, and Other Media. Berlin: De Gruyter, 2010.

76. Eder M. Does size matter? Authorship attribution, small samples, big problem // Digital Scholarship in the Humanities. 2015. Vol. 30. № 2. P. 167-182.

77. Eder M. Style-Markers in Authorship Attribution A Cross-Language Study of the Authorial Fingerprint // Studies in Polish Linguistics. 2011. № 6. P. 99-114.

78. Eder M. Visualization in stylometry: Cluster analysis using networks // Digital Scholarship in the Humanities. 2017. Vol. 32. № 1. P. 50-64.

79. Eder M., Rybicki J. PCA, Delta, JGAAP and Polish Poetry of the 16th and the 17th Centuries: Who Wrote the Dirty Stuff?' // Digital Humanities 2009: Conference Abstracts. : MD College Park, 2009. P. 242-244.

80. Elson D.K., Dames N., McKeown K.R. Extracting Social Networks from Literary Fiction // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics ACL '10. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. P. 138-147.

81. Fischer F., Göbel M., Kampkaspar D., Kittel C., Trilcke P. Network Dynamics, Plot Analysis: Approaching the Progressive Structuration of Literary Texts // Digital Humanities 2017. Book of Abstracts. Montréal: McGill University, 2017. (a)

82. Fischer F., Göbel M., Milling C., Orlova T., Palchikov G., Pavlova I., Pozdniakov I., Skorinkin D., Trilcke P. Life(!) on Stage: Building an interface for the network analysis of TEI-encoded drama corpora // TEI Conference and Members' Meeting 2017 Book of Abstracts Vol. 16. Victoria: University of Victoria, 2017. (b)

83. Fischer F., Trilcke P., Kittel C., Milling C., Skorinkin D. To Catch a Protagonist: Quantitative Dominance Relations in German Language Drama (1730-1930) // Digital

Humanities 2018: Book of Abstracts / Libro de resúmenes. Mexico : Red de Humanidades Digitales A. C., 2018. P. 193-201.

84. Fisseni B., Kurji A., Löwe B. Annotating with Propp's Morphology of the Folktale: reproducibility and trainability // Literary and Linguistic Computing. 2014. Vol. 29. № 4. P. 488-510.

85. Forstall C., Galli Milic L., Damien N. Approaches to Thematic Classification for Latin Epic // Digital Humanities 2016: Conference Abstracts. Kraków: Jagiellonian University, 2016. P. 508-510.

86. Forster E.M. Aspects of the Novel. New York: Harcourt, Brace and company, 1927.

87. Franzini, G., Kestemont, M., Rotari, G., Jander, M., Ochab, J.K., Franzini, E., Byszuk, J., Rybicki, J. Attributing Authorship in the Noisy Digitized Correspondence of Jacob and Wilhelm Grimm // Frontiers in Digital Humanities. 2018. Vol. 5. P. 4.

88. Freytag G. Die Technik des Dramas. Leipzig: Verlag von S. Hirzel. 1905 (1863) [Электронный ресурс]. URL: https://www.gutenberg.org/files/50616/50616-h/50616-h.htm (дата обращения: 30.09.2018).

89. García A. M., Martín J. C. Function Words in Authorship Attribution Studies // Literary and Linguistic Computing. 2007. Vol. 22. № 1. P. 49-66.

90. Gleiser P. M. How to become a superhero // Journal of Statistical Mechanics: Theory and Experiment. 2007. Vol. 9. P. 09020.

91. Grayson S. и др. The sense and sensibility of different sliding windows in constructing co-occurrence networks from literature // Computational History and Data-Driven Humanities: Second IFIP WG 12.7 International Workshop, CHDDH 2016, Dublin, Ireland, May 25, 2016, Revised Selected Papers 2. : Springer International Publishing,

2016. P. 65-77.

92. Holobut A., Rybicki J., Wozniak M. Old questions, new answers : computational stylistics in audiovisual translation research // Audiovisual translation : research and use. Frankfurt am Mein: Peter Lang Edition, 2017. P. 203-216.

93. Hoover D.L., Culpeper J., O'Halloran K. Digital Literary Studies: Corpus Approaches to Poetry, Prose, and Drama. New York, London: Taylor & Francis, 2014.

94. Hoover D.L. The microanalysis of style variation // Digital Scholarship in the Humanities.

2017. Vol. 32. № suppl_2. P. ii17-ii30.

95. Hoover D.L. Testing Burrows's Delta // Literary and Linguistic Computing. 2004. Vol. 19. № 4. P. 453-475.

96. Hume R.D. Money in Jane Austen // The Review of English Studies. 2013. Vol. 64. № 264. P. 289-310.

97. Jacomy M. Venturini T., Heymann S., Bastian M. ForceAtlas2, a Continuous Graph Layout Algorithm for Handy Network Visualization Designed for the Gephi Software // PL o S One. 2014. Vol. 9. № 6.

98. Jannidis F., Lauer G. Burrows's Delta and Its Use in German Literary History // Distant Readings. Topologies of German Culture in the Long Nineteenth Century Studies in German Literature Linguistics and Culture. / под ред. M. Erlin, L. Tatlock. Rochester: Camden House, 2014. P. 29-54.

99. Jockers M.L., Witten D.M., Criddle C.S. Reassessing authorship of the Book of Mormon using delta and nearest shrunken centroid classification // Literary and Linguistic Computing. 2008. Vol. 23. № 4. P. 465-491.

100. Jockers M. Revealing Sentiment and Plot Arcs with the Syuzhet Package Matthew L. Jockers [Электронный ресурс]. URL: http://www.matthewjockers.net/2015/02/02/syuzhet/ (дата обращения: 23.06.2018).

101. Juola P., Baayen R.H. A Controlled-corpus Experiment in Authorship Identification by Cross-entropy // Literary and Linguistic Computing. 2005. Vol. 20. № Suppl. P. 59-67.

102. Knuth D.E. The Stanford GraphBase: A Platform for Combinatorial Computing. New York, NY, USA: ACM, 1993.

103. Lee J., Wong T. Conversational Network in the Chinese Buddhist Canon // Open Linguistics. 2016. Vol. 2. № 1.

104. Lee J., Yeung C.Y. Extracting Networks of People and Places from Literary Texts // Proceedings of 26th Pacific Asia Conference on Language, Information, and Computation (PACLIC). Bali: Faculty of Computer Science, Universitas Indonesia, 2012. P. 209-218.

105. Liu M. et al. Literary intelligence analysis of novel protagonists' personality traits and development // Digital Scholarship in the Humanities. 2018.

106. Lutoslawski W. The Origin and Growth of Plato's Logic // Mind. 1898. Vol. 7. № 27. P. 419-423.

107. McCarty W. Knowing ... : Modeling in Literary Studies// A Companion to Digital Literary Studies. Oxford: Blackwell, 2008.

108. Mendenhall T.C. The Characteristic Curves of Composition // Science. 1887. Vol. ns-9. № 214S. P. 237-246.

109. Mohammad S. и др. SemEval-2018 Task 1: Affect in Tweets // Proceedings of The 12th International Workshop on Semantic Evaluation. New Orleans, Louisiana: Association for Computational Linguistics, 2018. P. 1-17.

110. Moretti F. Network Theory, Plot Analysis // New Left Review. 2011. P. 80-102.

111. Mowat B. Werstine P. Poston M. Niles R. Folger Digital Texts [Электронный ресурс]. URL: https://www.folgerdigitaltexts.org/ (дата обращения: 09.11.2018).

112. Mueller M. Shakespeare His Contemporaries: collaborative curation and exploration of Early Modern drama in a digital environment // Digital Humanities Quarterly. 2014. Vol. 8. № 3.

113. Puckett K. Narrative Theory: A Critical Introduction. Cambridge, United Kingdom: Cambridge University Press, 2016.

114. Reeve J.P. Does «Late Style» Exist? New Stylometric Approaches to Variation in Single-Author Corpora // Digital Humanities 2018 Book of Abstracts, El Colegio de México, UNAM, and RedHD, Mexico City, Mexico, June 26-29, 2018. , 2018. P. 478-480.

115. Rochat Y. Character Networks and Centrality. Lausanne: University of Lausanne. 2014. 210 p.

116. Rybicki J. Burrowing into Translation: Character Idiolects in Henryk Sienkiewicz's Trilogy and its Two English Translations // Literary and Linguistic Computing. 2006. Vol. 21. № 1. P. 91-103.

117. Rybicki J. Vive la différence: Tracing the (authorial) gender signal by multivariate analysis of word frequencies // Digital Scholarship in the Humanities. 2016. Vol. 31. № 4. P. 746-761.

118. Rybicki J., Eder M. Deeper Delta across genres and languages: do we really need the most frequent words? // Literary and Linguistic Computing. 2011. Vol. 26. № 3. P. 315-321.

119. Rybicki J. Is Translated Shakespeare Still an English Author, or Classification of Literature by Network Analysis// Лекция в рамках II Московско-тартуской школы НИУ ВШЭ по цифровым гуманитарным исследованиям 11.10.2017

120. Rydberg-Cox J. Social Networks and the Language of Greek Tragedy // Journal of the Chicago Colloquium on Digital Humanities and Computer Science. 2011. Vol. 1. № 3.

121. Schweizer T., Schnegg M. Die soziale Struktur der „Simple Storys": [Электронный ресурс]. URL: https://www.ethnologie.uni-hamburg.de/pdfs-de/michael-schnegg/simple-stories-publikation-michael-schnegg.pdf (дата обращения: 30.08.2018).

122. Schoch C. Fine-tuning Stylometric Tools: Investigating Authorship and Genre in French Classical Theater // Digital Humanities 2013 Conference Abstracts. Lincoln, Nebraska, 2013.

123. Schoch C. Topic Modeling Genre: An Exploration of French Classical and Enlightenment Drama // Digital Humanities Quarterly. 2017. Vol. 11. № 2. P. 1-53.

124. Scott J. Social Network Analysis: A Handbook. London: SAGE Publications, 2000.

125. Sherman L.A. Analytics of Literature: a manual for the objective study of English prose and poetry. Boston: Ginn, 1893. 1 p.

126. Skorinkin D. Digital Edition of the Complete Works of Leo Tolstoy // 6th AIUCD Conference Book of Abstracts. Rome. 2017a. P. 264-267.

127. Skorinkin D. Extracting Character Networks to Explore Literary Plot Dynamics // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». Москва: Изд-во РГГУ, 2017b. С. 257-270.

128. Skorinkin D., Mozhaev E. TEI markup for the 90-volume edition of Leo Tolstoy's complete works // TEI Conference and Members' Meeting 2016 Book of Abstracts. Wien: Austrian Centre for Digital Humanities. P. 107-109.

129. Stamou C. Stylochronometry: Stylistic Development, Sequence of Composition, and Relative Dating // Literary and Linguistic Computing. 2008. Vol. 23. № 2. P. 181-199.

130. Stiller J., Nettle D., Dunbar R.I.M. The small world of Shakespeare's plays. // Human nature. 2003. Vol. 14. № 4. P. 397-408.

131. Tello J.C. и др. Neutralising the Authorial Signal in Delta by Penalization: Stylometric Clustering of Genre in Spanish Novels // Digital Humanities 2017. Book of Abstracts. Montréal: McGill University, 2017.

132. Trilcke P. и др. Theatre Plays as 'Small Worlds'? Network Data on the History and Typology of German Drama, 1730-1930 // Digital Humanities 2016: Conference Abstracts. Krakow: Jagiellonian University, 2016. P. 385-387.

133. Trilcke P., Fischer F., Kampkaspar D. Digitale Netzwerkanalyse dramatischer Texte // DHd2015. Von Daten zu Erkenntnissen Book of Abstracts. Graz: Austrian Centre for Digital Humanities, 2015.

134. Toldova S. Ju., Roytberg A., Ladygina A. A., Vasilyeva M. D., Azerkovich I. L., Kurzukov M., Sim G., Gorshkov D. V., Ivanova A., Nedoluzhko A., Grishina Y. RU-EVAL-2014: Evaluating Anaphora and Coreference Resolution for Russian // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4 — 8 июня 2014 г.). Москва: Изд-во РГГУ, 2014. P. 681-694.

135. Vala H. и др. Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized: On The Difficulty of Detecting Characters in Literary Texts // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015, Lisbon, Portugal, 2015. P. 769-774.

136. Wasserman S., Faust K. Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press, 1994. 825 p.

137. Woloch A. The One vs. the Many: Minor Characters and the Space of the Protagonist in the Novel. Princeton: Princeton University Press, 2009. 391 p.

138. Zachary, W.W. An Information Flow Model for Conflict and Fission in Small Groups. Journal of Anthropological Research, № 33, 1977. P. 452-473.

139. Zeman D. u gp. CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies // Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. Vancouver, Canada: Association for Computational Linguistics, 2017. P. 1-19.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Скоринкин, Даниил Андреевич

Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Методы разрешения лексической неоднозначности на основе автоматически размеченных семантических корпусов2022 год, кандидат наук Большина Ангелина Сергеевна

Тезаурусное моделирование английских грамматических терминов морфологии и морфосинтаксиса2007 год, кандидат филологических наук Горбунов, Евгений Юрьевич

Методы конвертации морфологических стандартов и их применение в задаче автоматической морфологической разметки2023 год, кандидат наук Мовсесян Андрей Арсенович

Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Математические модели, методы и алгоритмы построения размеченных корпусов текстов2013 год, кандидат наук Седов, Алексей Владимирович

Программная система комплексного анализа русских поэтических текстов: модели и алгоритмы2022 год, доктор наук Кожемякина Ольга Юрьевна

Список литературы диссертационного исследования кандидат наук Скоринкин, Даниил Андреевич, 2018 год