PaRuS

PArsed RUssian Sentences

PaRuS — это морфологически и синтаксически аннотированный корпус предложений русского литературного языка объёмом свыше 2.5 млрд. токенов.

  • Морфологическое аннотирование выполнено в нотации MULTEXT-East (ru).
  • Синтаксическое аннотирование выполнено в соответствии с синтаксической схемой, используемой в СинТагРус.
  • Разметка порождена автоматическими средствами. Затем произведена частичная коррекция и фильтрация данных. Наибольшее внимание при создании корпуса уделялось корректности нормальных форм (лемм).
  • Корпус распространяется в виде базы данных MySQL, снабжённой индексами для поиска по словоформе и нормальной форме.
  • Доступ к данным свободный (лицензия Creative Commons Attribution 4.0 International).

PaRuS создавался для исследований, связанных с дистрибутивными семантическими моделями, но может также применяться для обучения различных алгоритмов, оперирующих в пределах предложения (морфологического и синтаксического анализа, обнаружения устойчивых словосочетаний и т.п.).

Рекомендуемая ссылка:
Н.А. Власова, И.В. Трофимов, Ю.П. Сердюк, Е.А. Сулейманова, И.Н. Воздвиженский. PaRuS — синтаксически аннотированный корпус русского языка // Программные системы: теория и приложения. — 2019. — Т.10, № 4(43). — С. 181–199.

Корпус создан при финансовой поддержке РФФИ в рамках научного проекта № 19-07-00779.