PaRuS — это морфологически и синтаксически аннотированный корпус предложений русского литературного языка объёмом свыше 2.5 млрд. токенов.
- Морфологическое аннотирование выполнено в нотации MULTEXT-East (ru).
- Синтаксическое аннотирование выполнено в соответствии с синтаксической схемой, используемой в СинТагРус.
- Разметка порождена автоматическими средствами. Затем произведена частичная коррекция и фильтрация данных. Наибольшее внимание при создании корпуса уделялось корректности нормальных форм (лемм).
- Корпус распространяется в виде базы данных MySQL, снабжённой индексами для поиска по словоформе и нормальной форме.
- Доступ к данным свободный (лицензия Creative Commons Attribution 4.0 International).
PaRuS создавался для исследований, связанных с дистрибутивными семантическими моделями, но может также применяться для обучения различных алгоритмов, оперирующих в пределах предложения (морфологического и синтаксического анализа, обнаружения устойчивых словосочетаний и т.п.).
Рекомендуемая ссылка:
Н.А. Власова, И.В. Трофимов, Ю.П. Сердюк, Е.А. Сулейманова, И.Н. Воздвиженский. PaRuS — синтаксически аннотированный корпус русского языка // Программные системы: теория и приложения. — 2019. — Т.10, № 4(43). — С. 181–199.
Корпус создан при финансовой поддержке РФФИ в рамках научного проекта № 19-07-00779.