О методе создания корпуса

В методе создания корпуса PaRuS выделяется три крупных группы операций:

отбор и подготовка текстов;
лингвистическое аннотирование (разметка);
дедупликация, фильтрация и перемешивание предложений.

Отбор и подготовка текстов

Целью данного этапа обработки было получение материалов для корпуса в виде простых текстовых файлов в кодировке utf-8.

Корпус составлялся из текстов двух категорий: 1) художественной и нехудожественной литературы (далее книг), 2) новостных сообщений. Каждая из категорий потребовала особой технологии селекции и предварительной обработки текстов.

Книги загружались из открытых онлайн-библиотек. Затем выполнялась их фильтрация по жанрам и языку текста. Например, исключались поэтические произведения и фэнтези. Первое — чтобы уменьшить риск ошибок при автоматическом аннотировании, второе — чтобы исключить описания вымышленных миров.

Новостные сообщения загружались специальным краулером в течение нескольких лет. Мониторингом было охвачено около 100 новостных сайтов (государственных и региональных, отечественных и переводных зарубежных, общетематических и специализированных). Загруженные страницы обрабатывались алгоритмом удаления служебной информации jusText.

Лингвистическое аннотирование

Лингвистическое аннотирование выполнялось конвейером PaRuS_pipe, созданным с целью повышения точности лемматизации. Подробное его описание приведено на отдельной странице.

Дедупликация, фильтрация и перемешивание предложений

Дедупликация выполнялась на уровне предложений. По тексту предложения вычислялась свёртка на базе хэш-функции SHA-256. Уникальность свёртки контролировалась в масштабе всего корпуса.

Из корпуса удалялись предложения, в которых содержалась низкочастотная лексика. Это позволило избавиться от значительной доли опечаток и последовательностей символов, не являющихся словами. Дополнительно выполнялась фильтрация предложений, удовлетворяющих определенным шаблонам (операция выполнялась под контролем человека-оператора).

Последним шагом в создании корпуса было перемешивание предложений в случайном порядке. Такой приём позволил избежать необходимости рассмотрения правовых вопросов, связанных с текстами-источниками.