Лингвистическая интерпретация и оценка векторных моделей слов русского языка тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат наук Шаврина Татьяна Олеговна

  • Шаврина Татьяна Олеговна
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ10.02.21
  • Количество страниц 98
Шаврина Татьяна Олеговна. Лингвистическая интерпретация и оценка векторных моделей слов русского языка: дис. кандидат наук: 10.02.21 - Прикладная и математическая лингвистика. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2022. 98 с.

Оглавление диссертации кандидат наук Шаврина Татьяна Олеговна

ОГЛАВЛЕНИЕ

Введение

1. Тема, содержание и структура работы

2. Возможности векторных моделей слов и текстов

3. Предлагаемая методика тестирования и интерпретации векторных моделей

Оценка статических векторных моделей

Оценка динамических векторных моделей

Russian General Language Understanding Evaluation

Результаты для оценки и интерпретации русскоязычных моделей

4. Заключение

Список литературы

Приложение

Приложение 1. Статья: «О методах компьютерной лингвистики в оценке систем

искусственного интеллекта»

Приложение 2. Статья: «Word vector models as an object of linguistic research»

Приложение 3. Статья: «RussianSuperGLUE: A Russian Language Understanding Evaluation

Benchmark»

Приложение 4. Статья: «Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian

NLP-models»

Приложение 5. Статья: «Humans Keep It One Hundred: an Overview of AI Journey»

Приложение 6. Лингвистическая диагностика Russian SuperGLUE

Задача диагностики: классификация Entailment

Лексическая семантика

Логический вывод

Морфологическое отрицание

Симметрия/Коллективность

Избыточность

Именованные сущности

Квантификаторы

Логика

Пропозициональная структура

Квантификаторы

Монотонность

Дополнительные логические структуры:

Предикатно-аргументная структура

Синтаксическая неоднозначность: относительные клаузы, управление

Предложные группы

Основные аргументы

Эллипсис

Анафора / Кореференция

Интерсективность

Рестриктивность

Знание

Общее знание

Здравый смысл

Приложение 7. Процедуры оценки модели

ЛИНГВИСТИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ И ОЦЕНКА ВЕКТОРНЫХ МОДЕЛЕЙ СЛОВ РУССКОГО ЯЗЫКА

Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Введение диссертации (часть автореферата) на тему «Лингвистическая интерпретация и оценка векторных моделей слов русского языка»

Введение

1. Тема, содержание и структура работы

Предлагаемая диссертация посвящена разработке методик лингвистической интерпретации и оценки векторных моделей слов для русского языка. Векторные модели занимают существенное место в обработке естественного языка (Natural Language Processing, NLP), и являются неотъемлемой основой решения широкого круга задач, таких как классификация текстов (определение тематики текста, анализ эмоциональной окраски текста, классификация оскорбительных сообщений), извлечение информации (распознавание именованных сущностей, извлечение фактов), а также машинный перевод, суммаризации, а также генерации текстов (автоматическое создание уникальных текстов на заданную тему, в заданном стиле, жанре). Различные методы статистики и машинного обучения, включая нейросетевые, приводят к появлению таких артефактов, как векторные модели слов и текстов.

Векторные модели работают со словами и текстами в векторном пространстве признаков, ставя в соответствие тексту или слову численный вектор фиксированной длины. Как указывает (Conneau A. et al. 2018), одним из существенных затруднений в работе с векторными моделями является непрозрачность "черного ящика", объясняемая способом обучения векторной модели. Признаки, представленные в векторах фиксированной длины, мало- и сложноинтерпретируемы, что существенно затрудняет сравнение и выбор лучшей векторной модели из имеющихся. Этот факт создает серьезную проблему для сравнения моделей, их результатов обучения и интерпретирумости, как формулирует работа (Rogers et al. 2020). Первые шаги в ее решении делаются для английского языка, прежде всего путем разработки методологии сравнительного анализа и бенчмаркинга (Wang A. et al. 2018, Wang A. et al. 2019). Благодаря развитию инженерной основы языкового моделирования в настоящий момент существуют сотни разновидностей различных векторных моделей слов и текстов, в том числе большая часть из них адаптированы для применения на русскоязычном материале!, например, модели проекта RusVectores (Kutuzov, Kuzmenko, 2017), а также DeepPavlov (Kuratov, Arkhipov, 2018).

Цель исследования

Создание методологии и инструментов своевременной оценки и интерпретации результатов обучения векторных моделей позволяет одновременно достичь двух важных целей, которым посвящено данное исследование.

• Во-первых, мы ставим целью разработать критерии для оценки векторных моделей моделирования, обоснованных с точки зрения теоретических представлений о языке. Эти критерии на годы вперед формирует ландшафт работ, которые проводятся сообществом с целью улучшения текущих результатов моделирования языка. Разработка критериев оценки векторных моделей создает основу для развития как языковой инженерии, так и инструментам сравнения векторных моделей друг с другом и с носителями.

• Во-вторых, наша цель состоит в создании результатов обучения моделей, которые станут более понятными для человека, выявить дополнительные факторы влияния на качество моделирования языка. Инструменты интерпретации векторных моделей позволяют пролить свет на "черный ящик", что делает востребованным разработку таких инструментов для русскоязычных моделей.

Для достижения приведенных целей в работе ставятся следующие задачи:

- проведение анализа существующих методов оценки векторных моделей для различных языков, поиск научных лакун в сфере теоретических требований к результатам языкового моделирования и практической оценкой результатов;

- исследования возможностей различных архитектур векторных моделей слов и текстов, включая актуальные модели на основе архитектуры трансформер, а также более старые модели дистрибутивной семантики (word2vec, GloVe), а также базовых моделей векторизации на основе коллокационных методов;

- создание набора новых тестов для проверки моделирования различных языковых интеллектуальных способностей, выраженных с помощью текстов: тестов на проведение причинно-следственных связей между событиями в текстах, тестах на логический вывод из текстов, тестов на общие и энциклопедические знания, тестов на снятие неоднозначности при помощи логики, а также тестов на машинное чтение — т. н. бенчмарка (benchmark) для русского языка;

- создание "лингвистической диагностики": набора диагностических тестов, определяющих влияние на результаты обучения различных явлений морфологии,

синтаксиса, лексической и формальной семантики, а также непосредственно знаний о мире;

- подготовка кодовой базы, обеспечивающей инвариантность проведения тестов с моделью любой архитектуры (нейросетевой, дистрибутивно-семантической, правиловой, и т.д.);

- проведение тестирования существующих векторных моделей слов и текстов для русского языка в полученной системе оценки и интерпретации, анализ результатов, измерение среднего уровня человека в решении приведенных задач.

Актуальность исследования определяется двумя основными факторами:

- бурное развитие новых нейросетевых методов языкового моделирования предоставляет много новых объектов для изучения — моделей, которые необходимо сравнить между собой, выделить лучшие решения для дальнейшего прогресса в моделировании языка;

- отсутствие систем оценки и интерпретации векторных моделей слов и текстов для русского языка делает недоступным оценку и объективное сравнение моделей.

Вклад автора определяется следующими положениями: в работе (Shavrina Т. 2019) автором единолично предложена методология интерпретации и сравнения статических векторных моделей, разработана кодовая база и методы тестирования обобщающей способности моделей в области лексической семантики. В работе (Shavrina Т. et а1. 2020Ь) автор лидирует разработку экспериментального ПО на основе векторных моделей, решающего полностью варианты Единого Государственного Экзамена по русскому языку, включая тесты, задания с открытым ответом и сочинение. Работа автора включает мотивацию и постановку задачи, методологию сбора решения и разработку решений 6 типов вопросов. В работах (Shavrina Т. et al. 2020, Fenogenova А. et al. 2021) автору принадлежит разработка методологии для оценки и интерпретации векторных моделей, а также сбор первичных корпусных данных для последующей фильтрации и редактуры в подкорпусах задач. Работа (Шаврина Т.О. 2021) обобщает вышеназванные эксперименты и соединяет их в методологическом обзоре, описывающем методологические предпосылки, мотивацию принятых решений, а также текущие ограничения предложенной методологии.

Таким образом, в рамках данного исследования на защиту выносятся следующие положения:

1) постепенный прогресс векторных моделей слов и текстов измеряется с помощью набора разнообразных интеллектуальных задач, обеспечивая объективные зафиксированные равные условия для всех тестируемых моделей;

2) набор задач для тестирования языкового моделирования должен включать задачи, являющиеся достаточно сложными для актуального уровня развития прикладных языковых технологий; такой сложный уровень предлагает методология общего понимания естественного языка (General Language Understanding Evaluation, GLUE);

3) векторные модели демонстрируют способности к выявлению связей между постановкой интеллектуальных задач и явлениями языка, явно выражаемыми лексическими средствами. Например, решать текстовые задачи на логический вывод с числом правильных ответов выше случайного, если в формулировке присутствует отрицание, дизъюнкция, конъюнкция или условная конструкция;

4) выявления этих корреляций, однако, не достаточно, чтобы решать тесты без ошибок, ни одна из публично представленных векторных моделей для русского языка не приблизилась близко к уровню человека в решении представленных текстовых задач. С помощью представленного в работе инструментария фиксируются существенные ошибки и противоречия в моделировании языка, моделировании векторного пространства признаков слов и текстов у различных моделей.

Теоретическая значимость исследования определяется общим сближением достижений лингвистики и теории искусственного интеллекта, включая следующие факторы:

- в качестве основного инструмента для оценки уровня интеллектуальности систем представлены языковые тесты, затрагивающие морфологический, синтаксический, семантический, прагматический и дискурсивный уровни языка. Корпуса текстов в настоящий момент являются самым доступным способом обучения ИИ-систем и одновременно обладают высокой вариативностью, необходимой для формулировки самых разных интеллектуальных задач.

- впервые составлена и описана процедура тестирования интеллектуальных систем для русского языка, включающая обучение, валидацию и тестирование, а

также подробный анализ результатов, диагностику ошибок и сравнение с уровнем человека.

Практическая значимость исследования и его влияние на дисциплину обусловлены представлением нового инструментария, бенчмарка Russian SuperGLUE (Shavrina T. et al. 2020a), состоящего из 9 новых корпусов интеллектуальных тестов для русского языка; каждый корпус тестов разделен на 3 фиксированные части — обучающую выборку, выборку для самопроверки участников, а также тестовую, с закрытыми золотыми ответами. Инструментарий доступен онлайн1, под открытой лицензией. С момента публичного запуска онлайн-доступа к рейтингу (июнь 2020 года) процедуру тестирования и интерпретации прошли 1530 различных вариаций векторных моделей для русского языка; 23 из этих моделей представлены в публичном рейтинге2 в сравнении с уровнем человека. В настоящий момент вышла вторая версия бенчмарка с дополнениями и коррекцией нескольких заданий первой версии (Fenogenova A. et al. 2021). 8 научных публикаций ссылаются на работу, согласно Google Scholar3.

Новизна проделанной работы в рамках представляемого исследования представляется как совокупность теоретических и практических достижений в методологии бенчмарков на основе корпусов текстов.

2. Возможности векторных моделей слов и текстов

Векторные модели способны представлять слова и тексты в виде численных признаков, пригодных для обработки различными алгоритмами. Получаемые вектора признаков, соответствующие слову или тексту, могут использоваться для определения близких по смыслу слов, близких по тематике текстов, к ним также могут быть применены различным математическим операциям (Turney, Pantel, 2010): например, найти слово A, которое находится в таком же отношении к слову B, что слово C к слову D: "Москва" — "Россия", "Сеул" —?

1 https://russiansuperglue.com

2 публичность результата в рейтинге определяется желанием автора системы. Рейтинг представлен по адресу https://russiansuperglue.com/leaderboard/2

3 https://scholar.google.com/scholar?hl=ru&as_sdt=0%2C5&q=russian+superglue&btnG=

Ответ: "Корея"4

Векторные модели условно разделяются на две категории:

- статические, у которых вектор каждого слова или текста строго фиксирован и однозначно определен результатами обучения векторной модели на некотором корпусе текстов. К недостаткам таких моделей относят совпадение векторов признаков для омонимов и полисемичных слов, а также случайные вектора для самых частотных слов служебных частей речи, встречающихся в самых разнообразных контекстах;

- и динамические, или контекстуальные, при которых вектор признаков слова или текста зависит и может существенно меняться в зависимости от коллокатов слева и справа, являясь показателем контекстного значения.

К моделям первого типа (статические) относятся такие векторные модели, как

- простые коллокационные модели, vector space models на основе методов и корпусной статистики. Модели такого рода собирают частоты совместной встречаемости всех уникальных слов в корпусе: например, слово "лингвистика" встретилась в одном тексте со словом "компьютерная" 200 раз на 10 миллиардов слов, а "корпусная" встретилась в одном тексте со словом лингвистика 300 раз на 10 миллиардов слов. Так, для каждого слова собирается вектор длиной с размер словаря, где каждое число соответствует частоте встречаемости слова с каждым другим. Подобные вектора, безусловно, содержат множество нулевых элементов, а также имеют крайне большую размерность, так как число уникальных вхождений в словаре большого корпуса может равняться миллионам слов.

- нейронные модели дистрибутивной семантики: word2vec, fasttext, Glove и другие модели. Такие модели опираются на простые коллокационные модели, стремясь различными способами эффективно сжать вектора больших размерностей. В моделях дистрибутивной семантики чаще используются первичные частоты совместной встречаемости слов не в целом документе, а в небольшом контексте, например, на расстоянии 5 слов друг от друга. Эффективное сжатие больших векторов происходит за счет нейросетевых архитектур Continuous bag of words

4 На основании векторной модели word2vec, обученной на текстах НКРЯ и Википедии https://rusvectores.org/ru/calculator/#

(CBoW) или Skip-gram (Mikolov et al. 2013). CBoW — архитектура, которая учится сжимать и восстанавливать вектор слова таким образом, чтобы предсказывает слово, исходя из окружающего его контекста. Skip-gram работает наоборот: по вектору текущего слова нейросеть учится предугадывать окружающие слова.

Второй тип моделей, динамический, в основном формируется за счет так называемых трансформерных моделей (transformers): моделей на основе архитектуры кодировщик-декодировщик (encoder-decoder) с механизмом внимания (attention) (Vaswani A. et al. 2017). Кодировщик нейросети принимает на вход текст, и механизм внимания взвешивает важность каждого слова, устанавливая коэффициенты важности — на основании них кодировщик формирует вектор контекста, а декодировщик решает заданную задачу — продолжает текст, или присваивает какую-то метку классификации. К таким архитектурам относятся, например, модели BERT (имеет только кодировщик), GPT-3 (только декодировщик), T5 (кодировщик и декодировщик) и другие.

3. Предлагаемая методика тестирования и интерпретации векторных моделей Оценка статических векторных моделей

В работе (Shavrina T. 2019) статические векторные модели рассмотрены как самостоятельный объект лингвистического исследования. Подробно рассмотрены различные статические векторные модели русского и английского языка, их возможности и недостатки. Заключается, что с помощью статистических экспериментов над статическими векторами, полученными на различных корпусах русского языка, выделяются стабильные группы лексики с самыми однородными, стабильными контекстами, независимо от жанрового и стилистического состава корпуса. Эти группы лексики включают прилагательные, обозначающие личные качества человека, национальность, профессии, топонимы, прилагательные времени.

В то же время наиболее нестабильной группой являются имена собственные — как наиболее редкие и контекстно-зависимые. Для русского языка был проведен эксперимент по оценке остаточного количества семантических и онтологических связей между известными парами слов, и качество моделей оценивалось на основе этого количества отношений, оставшихся в модели. Установлено, что слова из списка Сводеша более

устойчивы к смене модели и сохраняют своих ближайших соседей гораздо чаще, чем слова из первой тысячи слов частотного словаря, а также чаще, чем случайные слова. Эти результаты также воспроизводятся и для английского языка.

В то же время, для анализа качества и интерпретации динамических векторных моделей нужна другая методология, пригодная для динамических векторов — она представлена в следующем разделе и подробно описана в (Shavrina T. et al. 2020a, Fenogenova A. et al. 2021).

Оценка динамических векторных моделей

Динамические векторные модели с момента их появления в 2016 году являются технологической основой большинства прикладных решений с самым высоким качеством. При помощи динамических векторных моделей впервые были по формальным метрикам были получены результаты выше среднего уровня асессоров: так, в задаче поиска ответа на вопрос в Википедии (задача Stanford Question Answering Datasets SQuAD, для английского языка (Li Yi, 2017)), на корпусе новостей превышено качество человеческого перевода с китайского на английский (Hassan H. et al., 2018)), также превышен уровень качества записи звучащей речи на слух текстом (английский).

Однако, по это причине стандартные прикладные задачи, такие как поиск ответов на вопросы в корпусе, классификация текстов по тематикам, эмоциональной окраске, извлечение именованных сущностей из текста и так далее, являются для объективного сравнения слишком простыми. При своей широкой представленности, прикладные задачи обработки русского языка не могут обеспечить существенный разброс метрик между конкурирующими моделями, и часто решаются на уровне равном или выше уровня человеческого решения (95%+). В таком случае, между конкурирующими системами уменьшается разброс оценок, и их сравнение становится малоинформативным.

После появления теста Тьюринга (Turing 1950), представившего оценку способности машины к имитации человеческого интеллекта в виде переписки между машиной и судьями, возник широкий ряд смежных тестов интеллекта. Подробно эти методики рассмотрены в работе (Шаврина Т.О. 2021). Практика сравнения интеллектуальных способностей систем по результатам одного из таких тестов по-прежнему доминирует в

современном исследовательском сообществе, однако, для повышения надежности результатов требуется диверсификации тестов.

Подход, реализующий эту стратегию при оценке интеллектуальных систем, носит название бенчмаркинга. Впервые он был представлен в работе (Fleming et al. 1986): сравнение компьютерных систем в равных

условиях требует аккуратной постановки задач и агрегации результатов. Бенчмарк-подход в применении к интеллектуальным системам подразумевает сочетание нескольких принципов:

1) Фиксированное разделение данных: под сформулированную задачу собирается набор примеров, который фиксированным образом разделяется на три части: обучающую выборку, выборку для самопроверки участников и тестовую выборку для публичного сравнения систем (обычно в процентном соотношении 80-10-10% или 70-15-15% всех примеров).

2) Закрытость тестовой выборки: "золотые" ответы на тестовые задания недоступны участникам и недоступны для внешнего перебора.Текстовое представление интеллектуальных задач позволяет максимально разнообразно оценить способности соревнующихся систем, включая в задачи заведомую необходимость владения предметными знаниями (пчелы летают не по тем же законам физики, что и самолет), базовыми знаниями об объектах окружающей среды и их взаимодействии (зеленые фрукты есть не стоит, желтые и красные уже созрели), логикой, способностью устанавливать причинно-следственные связи между описываемыми событиями.

Russian General Language Understanding Evaluation

Как статические, так и динамические векторные модели демонстрируют способность к решению относительно простых задач с заданными границами. Так, в работе (Shavrina T. et al. 2020b) показано, что с помощью векторных моделей возможно собрать ПО для автоматического решения Единого государственного экзамена по русскому языку, сочетающее непосредственные текстовые источники знаний (тексты учебников), статистические модели ранжирования ответов, несколько моделей для расстановки пунктуации, нейросетевую систему проверки орфографии, систему правил для решения заданий на понимание текста, нейросетевую модель для генерации текста сочинения. Инженеру или составителю ЕГЭ при работе с системой станет ясно, что она не является в полной мере интеллектуальной, так как лишь использует фиксированный набор правил и фактов, хотя и может продемонстрировать определенные, вполне удовлетворительные,

результаты в рамках поставленной задачи. Ни каждая из ее составляющих в отдельности, ни их совокупность не обладают знанием о русском языке, однако в целом она демонстрирует уровень, достаточный для имитации успешного выполнения экзаменационных заданий — в среднем 69 баллов из 100, что соответствует уровню

п п

четверки .

Если в более простых задачах векторные модели демонстрируют свое превосходство, то с высокоинтеллектуальными задачами дело обстоит совсем иначе. Для более сложных интеллектуальных задач требуется хорошо разработанная методика определения степени текущих уровней решения задач.

Методика общего понимания естественного языка (General Language Understanding Evaluation, GLUE), впервые предложенная для английского языка, рассматривает оценку векторных моделей в комплексе: модели необходимо продемонстрировать уровень решения многих задач, желательно достаточно сложных, моделирующих различные интеллектуальные способности человека: предметные знания, логику, здравый смысл, способность к проведению причинно-следственных связей, демонстрацию понимания прочитанного текста. Эта методика оценивает пригодность модели к решению множества задач сразу, причем сами эти задачи наследуют методологию теста Тьюринга: включают в себя различные текстовые формулировки вопросов, обычно с вариантами ответов, и модели необходимо "притвориться человеком" - выбрать наиболее правильный вариант ответа.

Для русского языка эта методика интерпретативной оценки языковых моделей создается впервые и ложится в основу проекта Russian SuperGLUE. Проект содержит обновляемый рейтинг векторных моделей русского языка, их оценку на основе их ответов на вопросы, а также интерпретацию результатов на основе ошибок моделей, и корреляци ошибок с лингвистической информацией различных уровней - морфологии, синтаксиса, семантики, прагматики.

В рамках исследования впервые созданы корпуса интерпретирующих интеллектуальных задач для русского языка:

1. Linguistic Diagnostic for Russian (LiDiRus): оценка пригодности модели к проведению причинно-следственных связей на корпусе из минимальных пар

предложений с искусственно усложненными формулировками и зафиксированными языковыми свойствами различных уровней.

2. Russian Commitment Bank (RCB): оценка пригодности модели к проведению причинно-следственных связей между событиями в новостных и художественных текстах;

3. Choice of Plausible Alternatives for Russian language (PARus): оценка пригодности модели к принятию решения на основе здравого смысла;

4. Russian Multi-Sentence Reading Comprehension (MuSeRC): оценка пригодности модели к причинно-следственным связям в прочитанном тексте;

5. Textual Entailment Recognition for Russian (TERRa): оценка пригодности модели к к проведению причинно-следственных связей в сравнении пар текстов;

6. Russian Words in Context (RUSSE), оценка пригодности модели к снятию семантической неоднозначности на основе контекста и здравого смысла;

7. The Russian Winograd Schema Challenge (RWSD): оценка пригодности модели к решению логических задачи и целеполаганию;

8. Yes/no Question Answering Dataset for the Russian (DaNetQA): оценка пригодности модели к ответам на вопросы на предметное знания и понимание прочитанного текста.

9. Russian Reading Comprehension with Commonsense Reasoning(RuCoS): оценка пригодности модели к пониманию прочитанного текста.

Корпус (LiDiRus) был включен в общий список, так как имеет особенную задачу: лингвистическую интерпретацию. Лингвистическая интерпретация динамических векторных моделей подразумевает исследование всевозможных зависимостей между выученными векторными признаками слов и текстов и известными лингвистическими параметрами, свойствами обучающих корпусов. Для этой цели LiDiRus формирует корреляционный анализ ошибок модели и различных явлений языка. Результатом процедуры является аналитический отчет по разнообразным ошибкам модели при наличии следующих свойств:

• Лексическая семантика: кванторы, именованные сущности, лексическое следование, симметрия, фактивность, морфологическое, отрицание, избыточность;

• Формальная семантика: отрицание и двойное отрицание, интервалы и числа, восходящая монотонность, нисходящая монотонность, немонотонность, различие в глагольном времени, конъюнкция и дизъюнкция, условные конструкции, универсальные и экзистенциальные предложения;

• Предикатно-аргументная структура: совпадение/несовпадение ролей ключевых аргументов глагола, предложные группы, наличие модификатора, способных определять не только сущность, к которой он относится, но и к другим, либо отменять определение такой сущности (интерсективность/

неинтерсективность), рестриктивность, анафора и кореферентность, согласование, активный/пассивный залог, эллипсис, номинализация, относительная клауза, дативные конструкции, генитив и партитив; • Знания: здравый смысл, знания о мире.

Примеры всех свойств подробно описаны в Приложении 1.

Результаты для оценки и интерпретации русскоязычных моделей

Русскоязычная методология SuperGLUE подходит как для статических, так и для

динамических векторных моделей слов.

К настоящему времени с помощью бенчмарка было оценено 1530 моделей, имеющих свои частные записи о производительности при выполнении различных интеллектуальных задач и подверженности моделей ошибкам, на которые влияют различные особенности языка. В таблице 1 вы можете увидеть лучшие результаты по производительности русскоязычной модели по сравнению со средней производительностью человека (к сентябрю 2021 года).

Таблица 1. Уровень человека и первые 3 векторные модели рейтинга, основанного на средней оценке на девяти интеллектуальных задачах. Общий балл рассчитывается путем усреднения результатов каждого задания. В результатах конкретной задачи используются следующие метрики: LidiRus - Matthews Correlation, RCB - F1 / Accuracy, PARus - Accuracy, MuSeRC - F1 / EM, TERRa -Accuracy, RUSSE - Accuracy, RWSD - Accuracy, DaNetQA - Accuracy, RuCoS - F1 / EM.

Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Список литературы диссертационного исследования кандидат наук Шаврина Татьяна Олеговна, 2022 год

СПИСОК ЛИТЕРАТУРЫ / REFERENCES

Baltrusaitis et al. 2018 — Baltrusaitis T., Ahuja C., Morency L. P. Multimodal machine learning: A survey and

taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(2): 423-443.

23 https://en.wikipedia.org/wiki/Perplexity

Bengio et al. 2001 — Bengio Y., Ducharme R., Vincent P. A neural probabilistic language model. Advances in Neural Information Processing Systems 13 (NIPS 2000). Leen T. K., Dieterrich T. G., Tresp V. (eds.). Cambridge (MA): MIT Press, 2001, 893-899.

Biber 1993 — Biber D. Representativeness in corpus design. Literary and Linguistic Computing, 1993, 8(4): 243-257.

Brown et al. 2020 — Brown T. B., Mann B., Ryder N. et al. Language models are few-shot learners. Preprint, 2020. https://arxiv.org/abs/2005.14165.

Chen 1996 — Chen S. F. Building probabilistic models for natural language. Ph.D. diss., Harvard Univ., 1996. https://arxiv.org/abs/cmp-lg/9606014.

Chollet 2019 — Chollet F. On the measure of intelligence. Preprint, 2019. https://arxiv.org/abs/1911.01547.

Clark 2019 — Clark C., Lee K., Chang M. W., Kwiatkowski T., Collins M., Toutanova K. BoolQ: Exploring the surprising difficulty of natural yes/no questions. Preprint, 2019. https://arxiv.org/abs/1905.10044.

Dauphin et al. 2017 — Dauphin Y. N., Fan A., Auli M., Grangier D. Language modeling with gated convolution-al networks. Proc. of the 34th International Conf. on Machine Learning (Sydney, 2017). Precup D., Teh Y. W. (eds.). = Proceedings of Machine Learning Research, 2017, vol. 70: 933-941.

Fang et al. 2020 — Fang Y., Wang S., Gan Z., Sun S., Liu J. FILTER: An enhanced fusion method for cross-lingual language understanding. Preprint, 2020. https://arxiv.org/abs/2009.05166.

Fedus et al. 2021 — Fedus W., Zoph B., Shazeer N. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. Preprint, 2021. https://arxiv.org/abs/2101.03961.

Fleming, Wallace 1986 — Fleming P. J., Wallace J. J. How not to lie with statistics: The correct way to summarize benchmark results. Communications of the ACM, 1986, 29(3): 218-221. https://doi.org/10.1145/5666.5673.

Kucera, Francis 1967 — Kucera H., Francis W. N. Computational analysis of present-day American English. Providence (RI): Brown Univ. Press, 1967.

Frankish, Ramsey (eds.) 2014 — Frankish K., Ramsey W. M. (eds.). The Cambridge handbook of artificial intelligence. Cambridge: Cambridge Univ. Press, 2014.

Glushkova et al. 2020 — Glushkova T., Machnev A., Fenogenova A., Shavrina T., Artemova E., Ignatov D. I. DaNetQA: a yes/no Question Answering Dataset for the Russian Language. Preprint, 2020. https://arxiv.org/ abs/2010.02605.

He et al. 2020 — He P., Liu X., Gao J., Chen W. DeBERTa: Decoding-enhancedBERT with disentangled attention. Preprint, 2020. https://arxiv.org/abs/2006.03654.

Hu et al. 2020 — Hu J., Ruder S., Siddhant A., Neubig G., Firat O., Johnson M. XTREME: A massively multilingual multi-task benchmark for evaluating cross-lingual generalisation. Proc. of the 37th International Conf. on Machine Learning (ICML). Daumé H. III, Singh A. (eds.). = Proceedings of Machine Learning Research, 2020, vol. 119: 4411-4421.

Huang et al. 2019 — Huang H., Liang Y., Duan N., Gong M., Shou L., Jiang D., Zhou M. Unicoder: A universal language encoder by pre-training with multiple cross-lingual tasks. Preprint, 2019. https://arxiv.org/ abs/1909.00964.

Lan et al. 2019 — Lan Z., Chen M., Goodman S., Gimpel K., Sharma P., Soricut R. ALBERT: A lite BERT for self-supervised learning of language representations. Preprint, 2019. https://arxiv.org/abs/1909.11942.

Le et al. 2019 — Le H., Vial L., Frej J. et al. FlauBERT: Unsupervised language model pre-training for French. Preprint, 2019. https://arxiv.org/abs/1912.05372 2019.

Levesque et al. 2012 — Levesque H., Davis E., Morgenstern L. The Winograd Schema Challenge. 13th International Conf. on the Principles ofKnowledge Representation and Reasoning. Institute of Electrical and Electronics Engineers Inc. AAAI Press, 2012, 552-561.

Liang et al. 2020 — Liang Y., Duan N., Gong Y. et al. XGLUE: A new benchmark dataset for cross-lingual pre-training, understanding and generation. Preprint, 2020. https://arxiv.org/abs/2004.01401.

Luger, Stubblefield 2004— Luger G., Stubblefield W. Artificial intelligence: Structures and strategies for complex problem solving. 5th edn. San Francisco: Benjamin Cummings, 2004.

Luo et al. 2020 — Luo F., Wang W., Liu J., Liu Y., Bi B., Huang S., Huang F., Si L. VECO: Variable encoderdecoder pre-training for cross-lingual understanding and generation. Preprint, 2020. https://arxiv.org/ abs/2010.16046v1.

Manning 2011 — Manning C. D. Part-of-speech tagging from 97 % to 100 %: Is it time for some linguistics? CI-CLing 2011: International Conference on Intelligent Text Processing and Computational Linguistics. Gel-bukh A. F. (ed.). Dordrecht: Springer, 2011, 171-189.

Marcus et al. 1994 — Marcus M., Kim G., Marcinkiewicz M. A. et al. The Penn Treebank: Annotating predicate argument structure. Human language technology: Proc. of a Workshop held at Plainsboro, New Jersey, March 8-11, 1994. San Francisco: Morgan Kaufmann Publ., 1994, 114-119.

McCorduck 2004 —McCorduck P. Machines who think. 2nd edn. Natick (MA): A. K. Peters Ltd., 2004.

McKinstry 1997 — McKinstry C. Minimum Intelligent Signal Test: An alternative Turing Test", Canadian Artificial Intelligence, 1997, 41: pp. 35-47.

Nilsson 1998 — Nilsson N. Artificial intelligence: A new synthesis. San Francisco: Morgan Kaufmann Publishers, 1998.

Ouyang et al. 2020 — Ouyang X., Wang S., Pang C., Sun Y., Tian H., Wu H., Wang H. ERNIE-M: Enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora. Preprint, 2020. https://arxiv.org/abs/2012.15674.

Panchenko et al. 2018 — Panchenko A., Loukachevitch N., Ustalov D., Paperno D., Meyer C., Konstantinova N. RUSSE: The first workshop on Russian semantic similarity. Preprint, 2018. https://arxiv.org/abs/1803.05820.

Pasternack 2011 — Pasternack A. (18 April 2011). "A MacBook May Have Given Roger Ebert His Voice But An iPod Saved His Life" [video]. Archived from the original on 6 September 2011. Retrieved 12 September 2011. https://www.vice.com/en/article/4xxa7j/a-macbook-gave-roger-ebert-his-voice-an-ipod-saved-his-life.

Poole et al. 1998 — Poole D., Mackworth A., Goebel R. Computational intelligence: A logical approach. New York: Oxford Univ. Press, 1998.

Raffel et al. 2019 — Raffel C., Shazeer N., Roberts A. et al. Exploring the limits of transfer learning with a unified text-to-text transformer. Preprint, 2019. https://arxiv.org/abs/1910.10683.

Rajpurkar et al. 2016 — Rajpurkar P., Zhang J., Lopyrev K., Liang P. SQuAD: 100,000+ questions for machine comprehension of text. Preprint, 2016. https://arxiv.org/abs/1606.05250.

Russell, Norvig 2003 — Russell S. J., Norvig P. Artificial intelligence: A modern approach. 2nd edn. Englewood Cliffs (NJ): Prentice-Hall, 2003.

Rybak et al. 2020 — Rybak P., Mroczkowski R., Tracz J., Gawlik I. KLEJ: Comprehensive benchmark for Polish language understanding. Preprint, 2020. https://arxiv.org/abs/2005.00630.

Searle 1980 — Searle J. Minds, brains, and programs. Behavioral and Brain Sciences, 1980, 3(3): 417-424. https://doi.org/10.1017/S0140525X00005756.

Shavrina, Shapovalova 2017 — Shavrina T., Shapovalova O. To the methodology of corpus construction for machine learning: "Taiga" syntax tree corpus and parser. Proc. of "C0RP0RA-2017" International Conf. Zakharov V., Belyaeva L. (eds.). St. Petersburg: St. Petersburg State Univ. Press, 2017, 78-84.

Shavrina et al. 2020a — Shavrina T., Emelyanov A., Fenogenova A. et al. Humans keep it one hundred: An overview of AI journey. Proc. of the 12th Language Resources and Evaluation Conf. (Marseille, 2020). Calzolari N. et al. (eds.). European Language Resources Association (ELRA), 2020, 2276-2284.

Shavrina et al. 2020b — Shavrina T., Fenogenova A., Emelyanov A. et al. RussianSuperGLUE: A Russian language understanding evaluation benchmark. Preprint, 2020. https://arxiv.org/abs/2010.15925.

Suârez et al. 2019 — Suârez P. J. O., Sagot B., Romary L. Asynchronous pipeline for processing huge corpora on medium to low resource infrastructures. 7th Workshop on the Challenges in the Management of Large Corpora (CMLC-7). Leibniz-Institut für Deutsche Sprache, 2019.

Sutskever et al. 2014 — Sutskever I., Vinyals O., Le Q. V. Sequence to sequence learning with neural networks. Preprint, 2014. https://arxiv.org/abs/1409.3215.

Turing 1950 — Turing A. Computing machinery and intelligence. Mind, 1950, vol. LIX, No. 236: 433-460.

Wang et al. 2018 — Wang A., Singh A., Michael J., Hill F., Levy O., Bowman S. R. GLUE: A multi-task benchmark and analysis platform for natural language understanding. Preprint, 2018. https://arxiv.org/abs/1804.07461.

Wang et al. 2019 — Wang A., Pruksachatkun Y., Nangia N., Singh A., Michael J., Hill F., Levy O., Bowman S. R. SuperGLUE: A stickier benchmark for general-purpose language understanding systems. Preprint, 2019. https://arxiv.org/abs/1905.00537.

Winograd 1972 — Winograd T. Understanding natural language. Cognitive Psychology, 1972, 3(1): 1-191. https://doi.org/10.1016/0010-0285(72)90002-3.

Xu et al. 2020 — Xu L., Hu H., Zhang X. et al. CLUE: A Chinese language understanding evaluation benchmark. Preprint, 2020. https://arxiv.org/abs/2004.05986.

Xue et al. 2020 — Xue L., Constant N., Roberts A., Kale M., Al-Rfou R., Siddhant A., Barua A., Raffel C. mT5: A massively multilingual pre-trained text-to-text transformer. Preprint, 2020. https://arxiv.org/ abs/2010.11934.

Zhang et al. 2018 — Zhang S., Liu X., Liu J., Gao J., Duh K., Van Durme B. ReCoRD: Bridging the gap between human and machine commonsense reading comprehension. Preprint, 2018. https://arxiv.org/abs/1810.12885.

Получено / received 04.08.2021 Принято / accepted 21.09.2021

Приложение 2. Статья: «Word vector models as an object of linguistic research»

T.Shavrina. Word vector models as an object of linguistic research. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2019". 2019. P. 576-588.

Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2019"

Moscow, May 29—June 1, 2019

WORD VECTOR MODELS AS AN OBJECT OF LINGUISTIC RESEARCH

Shavrina T. O. (rybolos@gmail.com)

NRU HSE, Moscow, Russia; Sberbank, Moscow, Russia

This article launches a series of studies in which popular vector word2vec models are considered not as an element of the architecture of an NLP application, but as an independent object of linguistic research. The linguist's view on the surrogate of contexts on the corpus, as which vector models can be considered, makes it possible to reveal new information about the distribution of individual semantic groups of vocabulary and new knowledge about the corpus from which these models are derived. In particular, it is shown that such layers of English and Russian vocabulary, such as the names of professions, nationalities, toponyms, personal qualities, time periods, have the greatest independence from changing the model and retain their position relative to their neighbour words—that is, they have the most stable contexts regardless of the corpus; it is shown that the vocabulary from the Swadesh list is statistically more resistant to changing the model than the frequency vocabulary is; it is shown which word2vec models for the Russian language preserve best the ontological structures in vocabulary.

Key words: word2vec, word vector model, word vectors, vector model evaluation, word2vec interpretation

ВЕКТОРНЫЕ МОДЕЛИ КАК ОБЪЕКТ ЛИНГВИСТИЧЕСКОГО ИССЛЕДОВАНИЯ

Шаврина Т. О. (rybolos@gmail.com)

НИУ ВШЭ, Москва, Россия; Сбербанк, Москва, Россия

В данной статье начата серия исследований, в которых популярные векторные модели word2vec рассматриваются не как элемент архитектуры NLP-приложения, а как самостоятельный объект лингвистического исследования. Взгляд лингвиста на суррогат контекстов, коим можно назвать такие модели, позволяет выявить новую информацию о распределении отдельных семантических групп лексики и о корпусах, на которых эти модели получены. В частности, показывается, что такие пласты английской и русской лексики, как названия профессий, национальностей,

топонимы, качества личности, временные сроки, обладают наибольшей независимостью от смены модели и сохраняют свое положение относительно соседей — то есть имеют наиболее устойчивые контексты независимо от корпуса; показывается, что лексика из списка Сводеша в среднем более устойчива к смене модели, чем частотная лексика; показывается, какие модели word2vec для русского языка наилучшим образом сохраняют онтологические структуры в лексике.

Ключевые слова: word2vec, векторные модели, word vectors, evaluation

1. About word vector models

Vector word models are currently one of the main elements in architectures for language modelling and processing, showing themselves to be an effective way to convey information about the meaning and generalized contexts of individual words. From the point of view of mathematics, modern vector skip-gram and CBOW models have an indisputable advantage over other ways of vectorizing words—they simultaneously describe the distribution of words relative to each other and also take into account their sequential order.

However, the assessment of such vector models like word2vec [Mikolov et al., 2013], GloVE [Pennington et al., 2014], fasttext [Bojanowski et al., 2017 is currently hampered by the "black box" of the algorithm for obtaining them—and the quality of the models is estimated very indirectly. This study is devoted to the development of a linguistic apparatus for assessing the quality of vector models based on linguistic knowledge.

The main hypothesis on which the training word2vec models is based is "the words having the same contexts mean the same". Both Skip-gram and CBOW models provide high-quality word embeddings with this hypothesis, however, any linguist will call the resulting problems:

• there are words with similar contexts meaning the opposite—antonyms;

• there are words with different contexts meaning the same—historical synonyms,

multi-word expressions, etc;

• also, well-known problems are polysemy, morphological derivatives, misprints.

These problems lead to the attention shift in the human evaluation of vector models: the vocabulary of the medium frequency, non-homonymous, unambiguous gives those beautiful examples of vector calculations ("king"—'man' = 'queen', etc. by [Mikolov et al., 2013 ). What happens on the other groups of lexis?

For a linguistic point of view, the word vector model is a linguistic surrogate all the contexts in a corpus from which it is derived. Thus it can be considered interesting as an independent object of study, object situated in the middle of the usual division [Saussure, 1916] of synchronic and diachronic approaches: cumulative information about word behaviour in the language, obtained on the basis of all contexts over a certain (usually broad) time period, can be surprisingly accurate—examples (1) and (2) show that such a model can even accumulate extralinguistic knowledge if trained on the billionth volume of words.

(1) 5 closest words to the word 'otradnoye' (adj, name of a Moscow metro station) on word2vec model are 5 geographically adjacent Metro stations (model trained on Russian National Corpus).

Semantic associates for ompadHot1 (computed on Ruscorpora and Wikipedia)

лобаново 0.614

петровско-разумовское 0.585

романово 0.577

глухово 0.574

лукино 0.572

(2) 10 closest words to the word 'shabolovskaya' (adj, name of a station on crossing Metro lines) on word2vec model are geographically adjacent Metro stations, street names and names of crossing metro lines (model trained on news corpus).

Semantic associates for ua6onoecKaa2 (ADJ) computed on news corpus

шаболовский. DJ 0.59

щёлковская ,DJ 0.53

серпуховской ,DJ 0.51

-радиальный,DJ 0.49

таганско ,DJ 0.49

Ш-ШЪADJ 0.49

добрынинская ,DJ 0.49

филетовый. DJ 0.48

подбельский ,DJ 0.47

калужско-рижский 0.47

Hereinafter, all results will be presented on RusVectores project [Kutuzov, Andreev, 2015], [Kutuzov, Kuzmenko, 2017 models—all skip-gram, with lemmati-zation and pos-tagging, trained on 1) news corpus3, 2) Russian National Corpus4 and Wikipedia, 3) Taiga corpus5 and 4) Aranea corpus6. Results in English are computed on a sister project—WebVectors7

1 https://rusvectores.org/en/ruwikiruscorpora upos skipgram 300 2 2019/oTpajHoe ADJ/

2 https://rusvectores.org/en/news upos skipgram 300 5 2019/ma6o.noBCKafl ADJ/

3 News: news stream from 1500 primarily Russian-language news sites, model: http://vectors.nlpl.eu/repository/11/184.zip

4 Full Russian National Corpus , model https://rusvectores.org/ static/models/rusvectores4/RNC/ruscorpora upos skipgram 300 5 2018.vec.gz

5 Taiga: open and structured Russian web corpus ttps://tatianashavrina.github.io/taiga site/, model https://rusvectores.org/static/models/rusvectores4/taiga/taiga upos skipgram 300 2 2018.vec.gz

6 Araneum Russicum Maximum: large web corpus of Russian http://ella.juls.savba.sk/aranea

, model https://rusvectores.org/static/models/rusvectores4/araneum/araneum upos skipgram 300 2 2018.vec.gz

7 http://vectors.nlpl.eu/explore/embeddings/en/about/

2. Word vector model evaluation

Vector models are of great interest in connection with the mediated material they represent—for the needs of corpora comparison and assessment, for analyzing the nature of lexis. Knowledge of the "normal" and "anomalous" behaviour of lexis on the corpora would allow a much more accurate assessment of the quality of the obtained model vectors.

However, the quality assessment of vector models is still fairly superficial— this is either enumerating all possible models and choosing one that showed the best result in a particular architecture and specific task [Kutuzov, 2015], or an assessment on a small set of individual pairs of words with human assessment of their distance (completely subjective)—SimLex999 [Hill et al. 2015] and Google Analogy [Mikolov 2013]. Several significant studies Tsvetkov et al. 2016], [Vulich et al. 2017] have already shown that the quality of vector models for the English language is unstable and depends on many factors, and for an independent assessment of models, a new methodological apparatus is needed.

The evaluation problem grows like a snowball—in 2018, the first studies devoted to obtaining the best vector models were published, claiming universality for all words and sentences in a language—BERT [Devlin et al. 2018 , ELMo Peters et al. 2018], and OpenAI architecture [Radford et al. 2018]. The main trend in NLP remains— we search for an effective way to vectorize words and whole texts, but to evaluate model effectiveness, a new approach and a new level of understanding of the resulting models despite the corpus features is missing. Next, we consider a series of experiments devoted to the study of the lexis behaviour in word2vec models and the linguistic interpretation of the quality of word vectors—the preservation of known ontological relationships, most stable vocabulary groups, and so on.

3. The behaviour of lexis in word vector models

In accordance with the first hypothesis about the lexis behaviour in word2vec models, it was decided to check the Swadesh list Swadesh, 1950]—words from a manually compiled list that are considered chronologically the most stable in the language. Words from the Swadesh list do have interesting characteristics from the point of view of vector models—they denote the basic concept—relatives, animals, main action verbs, colorus, numbers, etc., and have a frequency above the average, that is, have enough contexts in any corpus. Hypothetically, on vector models, such vocabulary should be stable relative to its neighbours.

3.1. Experiment 1

Swadesh list was obtained for Russian and English in its fullest form (200

words), then only those words that were found on all models in concern were left— these are 173 words for Russian and 160 words for English since stop words are removed from the models before training8.

8 The full list can be found in the repository https://github.com/TatianaShavrina/wordvector metrics.

Then, for each of the words in the list, the share of the word neighbours always presented regardless of the model was calculated—in the window of the 10 closest ones, as well as the 20, 50, 100, 200 and 300 nearest neighbours. For the Russian language, the models RNC + wiki, Taiga, Aranea were used, and for English—BNC, Wiki, Gigaword.

For comparison, random words of a general dictionary of models were also taken, and, separately, random words with a high frequency (top 2000). For the Russian language, frequencies were taken from [Lyashevskaya, Sharoff, 2009], for English Kilgarriff, 1997] served as material.

Thus, it was obtained 15 samples for each language (3 types of words—Swadesh, frequent and random x 5 amounts of the nearest neighbours)—words and corresponding numbers from 0 to 1, denoting % of the stable neighbours. A statistical Mann— Whitney U-test [Mann, Whitney, 1947] was used to evaluate the differences between two independent samples based on the level of any trait measured quantitatively (simple non-parametric criterion).

On each triple of samples (Swadesh, frequent words, random words), a test was conducted with an alternative hypothesis that the values in the second sample were larger. The obtained result for each window of the nearest neighbours is the same:

1. words from Swadesh's list have a higher percentage of stored neighbours than random frequency words from the top 2000;

2. words from Swadesh's list have a higher percentage of saved neighbours than random words of a language;

3. frequency words from the top 2000 have a greater percentage of saved neighbours than just random words of the language9.

The p-value for all such tests clearly shows that the values in Swadesh's samples are significantly larger than values in frequency word lists; frequency word values are in turn larger than values in random word lists.

(3) for 100 nearest word neighbours for English: fr = frequent, sv = svodesh, rn = random rn < sw

annwhitneyuResult(statistic = 8932.0, pvalue = 4.4298335409745345e - 11) fr < sw

MannwhitneyuResult(statistic = 13363.0, pvalue = 0.04262714406973201) rn < fr

MannwhitneyuResult(statistic = 9962.0, pvalue = 3.771709496130687e - 08)

(4) for 100 nearest word neighbours for Russian: fr = frequent, sv = svodesh, rn = random rn < sw

MannwhitneyuResult(statistic = 8931.0, pvalue = 2.4298335409745345e - 11) fr < sw

MannwhitneyuResult(statistic = 13363.0, pvalue = 0.05262714406973201) rn < fr

MannwhitneyuResult(statistic = 7344.0, pvalue = 1.6367105050242702e - 11)

More complete numbers can be found https: //github.com/TatianaShavrina/wordvector metrics.

3.2. Experiment 2

Further, it was decided to scale up the previous experiment for the entire vocabulary of the existing models and conduct a test on the most stable words model, sorting them all one by one.

The intersection of dictionaries of all models was obtained, then for each word from the list, the number of stable neighbours was calculated- in the window of the 100 nearest neighbours. The list has been sorted by percentage of saved neighbours, remaining the same regardless of model—to measure that the intersection of the list of N nearest neighbours of the word was used on the entire list of models.

Thus, 2 interesting results were obtained at once—at the top of the list, we get the most stable words, which, regardless of the corpus source, keep their neighbours, and at the bottom—the most unstable ones. It is curious that the semantically given top of the list is grouped into distinct semantic groups:

• nouns denoting the personal qualities of a person, (5) Russian:

находчивость_NOUN радушие_NOUN аккуратность_NOUN идеализм NOUN

(resourcefulness_NOUN) 0.2781 neighbours saved

(welcome _NOUN) 0.2670

(accuracy_NOUN) 0.2626

(idealism_NOUN) 0.2542

• emotions,

(6) Russian: неприязнь_NOUN недоверие_NOUN восхищение_NOUN негодование_NOUN

• nationalities,

(7) Russian: итальянец_NOUN ирландец_NOUN узбек_NOUN

• professions,

(8) Russian: скрипач_NOUN палеонтолог_NOUN филолог_NOUN географ_NOUN

• toponyms,

(9) Russian: казах_NOUN нижегородский_ADJ бразилия_PROPN испанский ADJ

(hostility_NOUN) (distrust_NOUN) (admiration_NOUN) (resentment_NOUN)

Italian_NOUN Irish_NOUN Uzbek NOUN

violinist_NOUN paleontologist_NOUN philologist_NOUN geographer_NOUN

Kazakh_NOUN

Nizhny Novgorod_ADJ 0.2432

Brazil_PROPN 0.2350

spanish_ADJ 0.2337

0.3059 neighbours saved

0.2832

0.2528

0.2473

0.2558 0.2690 0.2389

0.2193 0.2179 0.2391 0.2320

0.2444

• term adjectives. (10) Russian:

двухлетний_АП1 two-year_ADJ 0.2428

четырехмесячный_ADJ four month_ADJ 0.2278

трехдневный_ADJ three-day_ADJ 0.2240

шестимесячный_ADJ six month_ADJ 0.2198

Results are stable for Russian and English (see appendix 1 and appendix 2 correspondingly). Only a few words they are knocked out of a list and can not be assigned to any group: these are 'pregnancy' (0.1386), 'whale' (0.1268), 'intercourse' (0.1226), 'waste' (0.1208) for English, 'неразбериха' ('confusion', 0.2431) 'материализм' ('materialism', 0.2228), 'коррупция' ('corruption', 0.2193) for Russian. There are practically no verbs in the top of the list, for both Russian and English they have too diverse contexts. All the above-mentioned semantic categories were postulated while analyzing the list, the reverse statement that all the words of these categories on average have more stable contexts is not proven because of the difficulty of demarcating these categories.

The most unstable group of words is:

• proper names (11) Russian:

Неклюдов_PROPN Neklyudov PROPN 0

Свинцов_PROPN Svintsov_PROPN 0

Софронов_PROPN Sofronov_PROPN 0

Робсон_PROPN Robson_PROPN 0

Having the most inconsistent contexts and low frequency, the proper names— surnames, full names occupy the bottom of the list for both Russian and English.10

It is noteworthy that these results partially reproduce the results of clustering in the work Zobnin, 2017 , where groups of proper names, toponyms and other semantic categories are also distinguished.

4. First steps to a linguistic assessment of models

Learning more about the standard properties of a wide list of lexemes in a language, we can more accurately assess both the adequacy of specific models for applied problems and the perspective of their potential improvement.

In the next experiment, we will show how the most popular models for the Russian language retain ontological relations in the vector space. The ontology of Ru-WordNet [Loukachevitch, Lashevich, 2016], containing more than 300 thousand pairs of words connected by relationships, was taken as a bank of such relations:

POS-synonymy, antonym, cause, domain, entailment, hypernym, hyponym, instance hypernym and instance hyponym, part holonym, part meronym.

10 See full lists at ittps://github.com/TatianaShavrina/wordvector metrics.

4 popular word2vec models for Russian—based on News, Aranea, RNC+wiki, Taiga—were studied on the subject of 1) the presence of words in the dictionary, 2) % of the preservation of connections between words—the "presence of a word in the list of N closest neighbours". N is 10, 20, 50, 100. Multi-word expressions are also included in the test—see Table 1.

Table 1: Experimental data examined

parent_ has_ has_ has_ has_

child_word word relation in_10 in_20 in_50 in_100

рабочий, работ- каменщик hypernym FALSE FALSE TRUE TRUE

ник физического (mason)

труда (worker)

промышленность каменщик domain FALSE FALSE FALSE FALSE

(industry) (mason)

We have 3 values for each word2vec model—"False"—both words presented in a model, but no relation found, 'OOV'—out of vocabulary, one of the words is not presented in a model, 'True'—both words presented in a model, relation established through N nearest words.

The results are surprising in some ways: first, all the metrics turned out to be quite low. Synonymy and antonymy, so beautifully illustrated with examples of original articles, generally stop reproducing for most of the vocabulary. Secondly, the best quality is shown by the model obtained on the largest corpus, Aranea (internet-crawled data), while the model of the Russian National Corpus and Wikipedia shows results below average. The results are also reproduced for the 100 nearest neighbour words (table 2). However, a model trained on the Russian National Corpus and Wikipedia has one of the most comprehensive dictionaries—the number 'not in vocabulary' in it is the smallest in almost all relationships (shown in bold).

Table 2: Remaining % of ontological relations on popular word2vec models, Russian. 100 nearest neighbours

relation value taiga me news aranea mean

antonymy FALSE 73.05 57.47 75.б5 45.5б б2.93

antonymy TRUE 25.11 37.77 1б.78 48.70 32.09

antonymy OOV 1.84 4.7б 7.58 5.74 4.98

cause FALSE б8.44 55.15 78.24 31.23 58.2б

cause TRUE 19.44 41.03 10.13 15.28 21.47

cause OOV 12.13 3.82 11.б3 53.49 20.27

domain FALSE 9б.91 92.73 9б.41 90.00 94.01

domain TRUE 1.75 5.80 3.19 8.13 4.72

domain OOV 1.34 1.47 0.41 1.87 1.27

entailment FALSE 91.92 80.13 89.32 б4.44 81.45

entailment TRUE 4.4б 17.73 б.78 12.81 10.45

entailment OOV 3.б2 2.14 3.90 22.75 8.10

relation value taiga me news aranea mean

hypemym FALSE 88.95 82.18 87.64 61.34 80.03

hypemym TRUE 6.81 14.33 7.73 19.71 12.15

hypemym OOV 4.24 3.49 4.63 18.95 7.83

hyponym FALSE 81.57 76.49 79.87 63.20 75.28

hyponym TRUE 7.87 13.40 7.18 17.75 11.55

hyponym OOV 10.57 10.11 12.95 19.06 13.17

The lowest quality is shown by popular vector models when conveying relationships like instance hyponymy and domain—it is possible that low quality, among other factors, can be explained by a low frequency of individual occurrences and their absence in the model dictionary. Also, the hypothesis that such relations as hypo-nymy, hypernymy and domain should be expressed by nearest neighbours can be too simplifiying, as they are hierarchical relations that cannot be extracted from embed-dings directly by cosine similarity, unlike pairwise-equivalent synonymy relations.

Relationships of antonymy are fairly well preserved (48% on the best model, Ara-nea), cause (41% on a best model, Aranea), hypernym, part holonym u part meronym (20% each on Aranea)—but such quality can be considered rather low. Nonetheless, in a similar experiment for the English language [Rogers et al. 2018] skip-gram models show lower quality—synonyms—0.447, antonyms—0.144, hyponyms—0.038, other relations—0.013 of ontological relations.

1) a modern amount of data is still not enough—we need at least an order of magnitude more data to get a large number of contexts for low-frequency words and multi-word expressions, which can be distinguished in a large number in any language;

2) the efficiency of the vectors obtained is far from ideal—between words that are obviously close to the claimed hypothesis: synonyms and antonyms, as well as part-whole and class-subclass relations—the proportion of the saved relations is low.

5. Further work and discussion

Within the framework of the initiated methodology, it is planned to further study the distributional lexis behaviour, and based on the results obtained, it is planned to develop metrics that allow obtaining a more complete interpretation of vector models.

The author would like to start a discussion on whether vector models can be used as a tool for a full-fledged linguistic lexical study on big corpora: potentially, such areas of study could be:

• assessment of corporal context biases, corpus thematic focus

• assessment of the sufficiency of the presented contexts of basic vocabulary in the corpus

• search for the most universal vocabulary groups that preserve the structure of relations among themselves regardless of the corpus and model

• the formation of a clearer picture of the set of mandatory properties that characterize a representative corpus of a language.

6. Conclusion

In this paper, as a result of experiments conducted on popular word2vec models for Russian and English, it was shown that the most stable lexical groups, having most uniform contexts, independent from the corpus, are:

• adjectives denoting the personal qualities of a person,

• nationalities,

• professions,

• toponyms,

• term adjectives.

At the same time, the most unstable group are proper names—as the rarest and context-dependent.

It has been established that words from Swadesh list (for English and Russian) are more resistant to a change of model and retain their closest neighbours regardless of the model much more often than words from the frequency vocabulary, as well as more often than random words.

For the Russian language, an experiment was conducted to assess the residual number of semantic and ontological links between known pairs of words and the quality of models was estimated on the basis of this number of relations remaining in the model.

All the data and code for this paper are available on github11—we welcome other authors to contribute word2vec metrics and evaluate their models.

7. Acknowledgement

The author is sincerely grateful to Olga Lyashevskaya and Serge Sharoff who prompted the author to think about the need for a different methodology for evaluating vector models, to Andrei Kutuzov for providing additional information about RusVectores models, and to Natalia Lukashevich for providing materials from the Ru-WordNet project.

References

1. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean (2013). Efficient estimation of word representations in vector space. CoRR, abs/1301.3781.

2. Jeffrey Pennington, Richard Socher, and Christopher D. Manning (2014). GloVe: Global Vectors for Word Representation.

3. P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov (2017) Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics, volume 5, 2017, issn 2307-387X, pp. 135-146

4. Ferdinand de Saussure (1916) Cours de linguistique générale, ed. C. Bally and A. Sechehaye, with the collaboration of A. Riedlinger, Lausanne and Paris: Payot; trans. W. Baskin, Course in General Linguistics, Glasgow: Fontana/Collins, 1977.

11 https://github.com/TatianaShavrina/wordvector metrics. 10

5. Kutuzov A., Kuzmenko E. (2017) WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. In: Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, vol 661. Springer, Cham

6. Kutuzov, A., Andreev, I. (2015) Texts in, meaning out: neural language models in semantic similarity task for Russian. In: Proceedings of the Dialog Conference, Moscow, RGGU

7. Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv e-prints

8. Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer (2018). Deep contextualized word representations. In NAACL

9. Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever (2018). Improving language understanding with unsupervised learning. Technical report, OpenAI.

10. Swadesh, Morris. (1950). "Salish Internal Relationships." International Journal of American Linguistics, Vol. 16, 157-167.

11. О. Н. Ляшевская, С. А. Шаров, (2009). Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник.

12. Loukachevitch N., Lashevich G. (2016) Multiword expressions in Russian Thesauri RuThes and RuWordNet. Proceedings of the AINL FRUCT 2016, pp. 66-71.

13. Kilgarriff, A. (1997) Putting Frequencies in the Dictionary. International Journal of Lexicography 10 (2). Pp 135-155.

14. Mann, Henry B.; Whitney, Donald R. (1947). "On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other". Annals of Mathematical Statistics. 18 (1): 50-60. doi:10.1214/aoms/1177730491. MR 0022058. Zbl 0041.26103.

15. Felix Hill, Roi Reichart, and Anna Korhonen (2016). Simlex-999: Evaluating semantic models with (genuine) similarity estimation. Computational Linguistics

16. Rogers, Anna, Shashwath Hosur Ananthakrishna, and Anna Rumshisky (2018). What's in your embedding, and how it predicts task performance. In Proceedings of the 27th International Conference on Computational Linguistics, pages 2690-2703.

17. Yulia Tsvetkov, Manaal Faruqui, and Chris Dyer (2016). Correlation-based intrinsic evaluation of word vector representations. CoRR abs/1606.06710.

18. Ivan Vulic, Daniela Gerz, Douwe Kiela, FelixHill,and Anna Korhonen (2016). Hyper-lex: A large-scale evaluation of graded lexical entailment. CoRR,abs/1608.02117.

19. A. Zobnin (2017) "Rotations and interpretability of word embeddings: the case of the russian language," arXiv preprint arXiv:1707.04662.

Appendix

Appendix 1 and 2: Top 100 most stable words for English and Russian

N top intersection word English intersection word Russian

1 0.2658959538 six-month_ADJ 0.3058823529 HenpH33Hb_NOUN

2 0.2388888889 three-week_ADJ 0.2832369942 HegpBepHe_NOUN

3 0.2131147541 two-week_ADJ 0.2781065089 Hax0fl^HB0CTb_NOUN

4 0.1935483871 eight-year_ADJ 0.269005848 Hp.aHg^_NOUN

5 0.1917098446 six-week_ADJ 0.2670454545 paaymue_NOUN

6 0.1917098446 two-year_ADJ 0.2625698324 aKKyparaocTb_NOUN

7 0.1904761905 four-month_ADJ 0.2558139535 нта.пbaнец_NOUN

8 0.1808510638 three-month_ADJ 0.2542372881 Hflea.H3M_NOUN

9 0.1804123711 extremely_ADV 0.2528089888 H306peTaTe.bH0CTb_NOUN

10 0.175879397 Uganda_PROPN 0.2528089888 BocxH^eHHe_NOUN

11 0.1693121693 unease_NOUN 0.25 caMOOTBep®eHHOCTb_NOUN

12 0.1691542289 Malawi_PROPN 0.2472527473 HerogpBaHHe_NOUN

13 0.1675126904 four-week_ADJ 0.2471264368 fl06p0C0BecTH0CTb_NOUN

14 0.16 Tanzania_PROPN 0.2458100559 pacT0p0nH0CTb_NOUN

15 0.1592039801 seven-day_ADJ 0.2445652174 HeBepoaTHHH_ADJ

16 0.158974359 resentment_NOUN 0.2444444444 Ka3ax_NOUN

17 0.1565656566 disappointment_NOUN 0.2432432432 HH®eropoflCKHH_ADJ

18 0.1534653465 Botswana_PROPN 0.2430939227 Hepa36epHxa_NOUN

19 0.1507537688 astonishing_ADJ 0.2427745665 flByx.eTHHM_ADJ

20 0.1477832512 immense_ADJ 0.2391304348 $H.o.or_NOUN

21 0.1469194313 Zambia_PROPN 0.2388888889 y36eK_NOUN

22 0.1464646465 Guyana_PROPN 0.2369942197 flecaTH.eTHHH_ADJ

23 0.1464646465 homosexual_ADJ 0.2362637363 HeflOBO.bCTBO_NOUN

24 0.1463414634 incompetence_NOUN 0.2349726776 6pa3H.Ha_PROPN

25 0.1435897436 violin_NOUN 0.2349726776 CMeTKa_NOUN

26 0.1428571429 Mozambique_PROPN 0.2346368715 Heoflo6peHHe_NOUN

27 0.1428571429 five-day_ADJ 0.2336956522 HcnaHCKHH_ADJ

28 0.1407035176 ten-year_ADJ 0.2329545455 CMeKa.Ka_NOUN

29 0.14 inaccurate_ADJ 0.2320441989 reorpa$_NOUN

30 0.14 three-year_ADJ 0.2316384181 HacTOH^HBOCTb_NOUN

31 0.1386138614 pregnancy_NOUN 0.2316384181 rpy3HH_NOUN

32 0.1379310345 five-week_ADJ 0.2315789474 pyMbfflHa_PROPN

33 0.1359223301 incredible_ADJ 0.2311827957 B0.0r0flCKHH_ADJ

34 0.1359223301 Grenada_PROPN 0.2307692308 0n.0mH0CTb_NOUN

35 0.1359223301 tedious_ADJ 0.2295081967 Hp.aHflCKHH_ADJ

36 0.1355140187 amazing_ADJ 0.2287234043 omckhh_ADJ

37 0.1355140187 Kenya_PROPN 0.2287234043 $hhh_NOUN

38 0.1346153846 enormous_ADJ 0.2277777778 flpy®e.ro6He_NOUN

39 0.1346153846 shocked_ADJ 0.2277777778 qeTHpexMecaqHHH_ADJ

40 0.1343283582 disquiet_NOUN 0.2272727273 .H^Mepue_NOUN

41 0.1339712919 Lesotho_PROPN 0.227027027 capaTOBCKHH_ADJ

42 0.1333333333 Sierra::Leone_PROPN 0.226519337 азер6анfl®анец_NOUN

43 0.1320754717 dismay_NOUN 0.226519337 KaTO.HK_NOUN

44 0.1320754717 Zimbabwe_PROPN 0.2263157895 BeHrpua_PROPN

45 0.1317073171 greatly_ADV 0.2252747253 cnoKoHcTBHe_NOUN

46 0.1306532663 appalling_ADJ 0.2252747253 nyHKTya.bHOCTb_NOUN

47 0.1280788177 alarmed_ADJ 0.2247191011 6ecn0.e3H0CTb_NOUN

N top intersection word English intersection word Russian

48 0.1279620853 remarkable ADJ 0.2247191011 некомпетентность NOUN

49 0.1267605634 whale_NOUN 0.2245989305 ростовский_ADJ

50 0.1261682243 incredibly_ADV 0.2240437158 TpexflHeBHbrn_ADJ

51 0.125 Antigua_PROPN 0.2240437158 деликатность_NOUN

52 0.125 teenager_NOUN 0.222826087 чудовищный_ADJ

53 0.1237623762 honesty_NOUN 0.222826087 материализм_NOUN

54 0.1231527094 Nigeria_PROPN 0.222826087 индус_NOUN

55 0.1231527094 ankle_NOUN 0.2216216216 трехнедельный_ADJ

56 0.1227272727 biologist_NOUN 0.2215909091 американец_NOUN

57 0.1226415094 intercourse_NOUN 0.2204301075 HegoyMeH^_NOUN

58 0.1225490196 Dominica_PROPN 0.2204301075 австралия_PROPN

59 0.1218274112 frustration_NOUN 0.2197802198 шестимесячный_ADJ

60 0.1213592233 underwear_NOUN 0.2192513369 скрипач_NOUN

61 0.1209302326 Barbados_PROPN 0.2192513369 коррупция_NOUN

62 0.1207729469 waste_NOUN 0.217877095 палеонтолог_NOUN

63 0.1207729469 trumpet_NOUN 0.2173913043 неясность_NOUN

64 0.1201923077 generosity_NOUN 0.2173913043 неимоверный_ADJ

65 0.1196172249 clarinet_NOUN 0.2162162162 пакистан_PROPN

66 0.119266055 conspiracy_NOUN 0.2159090909 биолог_NOUN

67 0.119266055 whisky_NOUN 0.2157894737 недельный_ADJ

68 0.1188118812 cello_NOUN 0.2154696133 антисемитский_ADJ

69 0.1184834123 courage_NOUN 0.2150537634 венгерский_ADJ

70 0.117370892 sex_NOUN 0.2142857143 предусмотрительность_NOUN

71 0.117370892 surgeon_NOUN 0.2131147541 npe3peH^_NOUN

72 0.1170731707 pear_NOUN 0.2131147541 усидчивость_NOUN

73 0.1165048544 nine-year_ADJ 0.2131147541 дотошный_ADJ

74 0.1165048544 ten-day_ADJ 0.2124352332 возмущение_NOUN

75 0.1165048544 Nairobi_PROPN 0.2116402116 таджик_NOUN

76 0.1162790698 flute_NOUN 0.2116402116 ирландия_PROPN

77 0.1162790698 headache_NOUN 0.2111111111 этнограф_NOUN

78 0.1157407407 uncle_NOUN 0.2111111111 CHopoBKa_NOUN

79 0.1153846154 craftsman NOUN 0.2108108108 геолог NOUN

80 0.1148325359 sadness NOUN 0.2105263158 армянин_NOUN

81 0.1148325359 weather_NOUN 0.2099447514 выразительность_NOUN

82 0.1142857143 t-shirt_NOUN 0.2099447514 ангола_PROPN

83 0.1141552511 marvellous_ADJ 0.2099447514 православие_NOUN

84 0.1141552511 frustrating_ADJ 0.2099447514 плечистый ADJ

85 0.1136363636 biology_NOUN 0.2096774194 ярославский_ADJ

86 0.1132075472 despair_NOUN 0.2096774194 тщательность_NOUN

87 0.1132075472 consternation_NOUN 0.2096774194 симпатия_NOUN

88 0.112745098 concerto_NOUN 0.2096774194 грузинский_ADJ

89 0.1126760563 sexual ADJ 0.2094240838 пермский_ADJ

90 0.1126760563 perseverance_NOUN 0.2087912088 дагестанский_ADJ

91 0.1126760563 husband_NOUN 0.2087912088 голландец_NOUN

92 0.1126760563 inventiveness_NOUN 0.2087912088 беспокойство_NOUN

93 0.1126760563 arduous_ADJ 0.2085561497 зависть_NOUN

94 0.1126760563 false_ADJ 0.2085561497 злорадство_NOUN

95 0.1126760563 homosexuality_NOUN 0.2085561497 невероятно_ADV

96 0.1121495327 tuna_NOUN 0.2085561497 томский_ADJ

97 0.1121495327 frequently_ADV 0.2078651685 никчемность_NOUN

98 0.1121495327 rivalry_NOUN 0.2076502732 коренастый_ADJ

99 0.1116504854 shirt_NOUN 0.2076502732 воронежский_ADJ

Приложение 3. Статья: «RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark»

Shavrina T., Fenogenova A., Emelyanov A., Shevelev D., Artemova E., Malykh V., Mikhailov V., Tikhonova M., Chertok A., Evlampiev A. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark, in: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics. 2020. P. 4717-4726.

RussianSuperGLUE: A Russian Language Understanding Evaluation

Benchmark

Tatiana Shavrina1'2, Alena Fenogenova1, Anton Emelyanov13, Denis Shevelev1, Ekaterina Artemova2, Valentin Malykh4, Vladislav Mikhailov12, Maria Tikhonova12, Andrey Chertok1 and Andrey Evlampiev1

1Sberbank / Moscow, Russia 2National Research University Higher School of Economics / Moscow, Russia 3Moscow Institute of Physics and Technology / Moscow, Russia 4Huawei / Moscow, Russia

Abstract

In this paper, we introduce an advanced Russian general language understanding evaluation benchmark - RussianGLUE. Recent advances in the field of universal language models and transformers require the development of a methodology for their broad diagnostics and testing for general intellectual skills - detection of natural language inference, commonsense reasoning, ability to perform simple logical operations regardless of text subject or lexicon. For the first time, a benchmark of nine tasks, collected and organized analogically to the SuperGLUE methodology (Wang et al., 2019), was developed from scratch for the Russian language. We provide baselines, human level evaluation, an open-source framework for evaluating models and an overall leaderboard of transformer models for the Russian language. Besides, we present the first results of comparing multilingual models in the adapted diagnostic test set and offer the first steps to further expanding or assessing state-of-the-art models independently of language.

1 Introduction

With the development of technologies for text processing and then deep learning methods for obtaining better text representation, language models went through the increasingly advanced stages of natural language modelling.

Modern scientific methodology is beginning to gradually explore universal transformers as an independent object of study - furthermore, such models show the ability to extract causal relationships in texts (natural language inference), common sense and world knowledge and logic (textual entail-ment), to generate coherent and correct texts. An actively developing field of model interpretation develops testing procedures comparing their performance to a human level and even the ability to

reproduce some mechanisms of human brain functions.

NLP is gradually absorbing all the new areas responsible for the mechanisms of thinking and the theory of artificial intelligence.

Benchmark approaches are being developed, testing general intellectual "abilities" in a text format, including complex input content, but having a simple output format. Most of these benchmarks (for more details see Section 2) make the development of machine intelligence anglo-centric, while other, less widespread languages, in particular Russian, have other characteristic linguistic categories to be tested.

In this paper, we expand the linguistic diversity of the testing methodology and present the first benchmark for evaluating universal language models and transformers for the Russian language, together with a portable methodology for collecting and filtering the data for other languages.

The contribution of RussianGLUE is two-fold. First, it provides nine novel datasets for the Russian language covering a wide scope of NLU tasks. The choice of the tasks are justified by the design of prior NLU benchmarks (Wang et al., 2018, 2019). Second, we evaluate two widely used deep models to establish baselines.

The remainder is structured as follows. We overview multiple prior works on developing NLU benchmarks, including those designed for languages other than English, in Section 2. Section 3.1 lists the tasks and novel datasets, proposed for the Russian NLU. Section 4 presents with the baselines, established for the tasks, including a human level baseline. We overview compare achieved results in Section 2 to the current state of English NLU. We discuss future work directions and emphasize the importance of NLU benchmarks for languages other than English in Section 6. Section 7 concludes.

2 Related Work

Several benchmarks have been developed to evaluate and analyze word and sentence embeddings over the past few years.

SentEval (Conneau and Kiela, 2018) is one of the first frameworks intended to evaluate the quality of sentence embeddings. A twofold set of transfer tasks is used to assess the generalization power of sentence embedding models. The transfer tasks comprise downstream tasks, in which the sentence embedding is used as a feature vector, and probing tasks, which are aimed to evaluate the capability of sentence embeddings to encode linguistic properties. The choice of the downstream tasks is limited to sentiment classification, natural language inference, paraphrase detection and image captioning tasks. The probing tasks are meant to analyse morphological, syntactical and semantical information encoded in sentence embeddings.

The General Language Understanding Evaluation (GLUE) (Wang et al., 2018) benchmark is a collection of tools for evaluating the performance of language models across a diverse set of existing natural language understanding (NLU) tasks, adopted from different sources. These tasks are divided into two parts: single sentence classification tasks and sentence pair classifications tasks subdivided further into similarity and inference tasks. GLUE also includes a hand-crafted diagnostic test, which probes for complex linguistic phenomena, such as the ability of the model to express lexical semantics and predicate-argument structure, to pose logical apparatus and knowledge representation. GLUE is recognized as a de-facto standard benchmark to evaluate transformer-derived language models. Last but not least GLUE informs on human baselines for the tasks, so that not only submitted models are compared to the baseline, but also to the human performance. The SuperGLUE (Wang et al., 2019) follows GLUE paradigm for language model evaluation based on NLU tasks, providing with more complex tasks, of which some require reasoning capabilities and some are aimed at detecting ethical biases. A few recent projects reveal that GLUE tasks may be not sophisticated enough and do not require much tasks-specific linguistic knowledge (Kovaleva et al., 2019; Warstadt et al., 2019). Thus SuperGLUE benchmark, being more challenging, becomes much more preferable for evaluation of language models.

decaNLP (McCann et al., 2018) widens the

scope for language model evaluation by introducing ten disparate natural language tasks. These tasks comprise not only text classification problems, but sequence tagging and sequence transformation problems. The latter include machine translation and text summarization, while the former include semantic parsing and semantic role labelling. Although decaNLP along with the associated research direction focuses on multi-task learning as a form of question answering, it supports zero-shot evaluation.

To evaluate models for languages other than English, several monolingual benchmarks were developed, such as FLUE (Le et al., 2019) and CLUE (Liang, 2020), being French and Chinese versions of GLUE. These benchmarks include a variety of tasks, ranging from part-of-speech tagging and syntax parsing to machine reading comprehension and natural language inference.

To the best of our knowledge, LINSPECTOR (Eichler et al., 2019) is a first multi-lingual benchmark for evaluating the performance of language models. LINSPECTOR offers 22 probing tasks to analyse for a single linguistic feature such as case marking, gender, person, or tense for 52 languages. A part of these 22 probing tasks are static, i.e. are aimed at evaluation of word embeddings, and the rest are contextual and should be used to evaluate language models. Released in early 2020 two multilingual benchmarks, (Liang et al., 2020) and XTREME (Hu et al., 2020), aim at evaluation of cross-lingual models. XGLUE includes 11 tasks, which cover both language understanding and language generation problems, for 19 languages. XGLUE provides with several multilingual and bilingual corpora that allow of cross-lingual model training. As for the Russian language, XGLUE provides with four datasets for POS tagging, a part of XNLI (Conneau et al., 2018) and two datasets, crawled from commercial news website, used for news classification and news headline generation. XTREME consists of nine tasks which cover classification, sequence labelling, question answering and retrieval problems for 40 languages. Almost a half of the datasets were translated from English to the target languages with the help of professional translators. XTREME offers for the Russian language five datasets, including NER and two question-answering datasets. Both XGLUE and XTREME offer tasks that are much simpler than SuperGLUE and are aimed at evaluation of

cross-lingual models rather than at comparison of mono-lingual models in similar setups. Thus the need for novel datasets targeted at mono-lingual model evaluation for languages other than English is still not eliminated.

3 RussianGLUE Overview

We have intenooed to have the same task set in the framework as one in the SuperGLUE. There is no one-to-one mapping, but the corpora we use could be considered close to the specified tasks in the SuperGLUE framework.

We divided the tasks into six groups, covering the general diagnostics of language models and different core tasks: common sense understanding, natural language inference, reasoning, machine reading and world knowledge.

3.1 Tasks

The tasks description is provided below. The samples from the tasks are presented at figs. 1 to 7.

3.1.1 Diagnostics

LiDiRus: Linguistic Diagnostic for Russian is a diagnostic dataset that covers a large volume of linguistic phenomena, while allowing you to evaluate information systems on a simple test of textual entailment recognition. This dataset was translated from English to Russian with the help of professional translators and linguists to ensure that the desired linguistic phenomena remain. This dataset corresponds to AX-b dataset in SuperGLUE benchmark.

3.1.2 Common Sense

RUSSE: Word in context is a binary classification task, based on word sense disambiguation problem. Given two sentences and a polysemous word, which occurs in both sentences, the task is to determine, whether the word is used in the same sense in both sentences, or not. For this task we used the Russian word sense disambiguation dataset RUSSE (Panchenko et al., 2015) and converted it into WiC dataset format from SuperGLUE.

Context 1: Бурые ковровые дорожки заглушали шаги. Context 2: Приятели решили выпить на дорожку в местном баре.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.