О методе создания корпуса
В методе создания корпуса PaRuS выделяется три крупных группы операций:
- отбор и подготовка текстов;
- лингвистическое аннотирование (разметка);
- дедупликация, фильтрация и перемешивание предложений.
Отбор и подготовка текстов
Целью данного этапа обработки было получение материалов для корпуса в виде простых текстовых файлов в кодировке utf-8.
Корпус составлялся из текстов двух категорий: 1) художественной и нехудожественной литературы (далее книг), 2) новостных сообщений. Каждая из категорий потребовала особой технологии селекции и предварительной обработки текстов.
Книги загружались из открытых онлайн-библиотек. Затем выполнялась их фильтрация по жанрам и языку текста. Например, исключались поэтические произведения и фэнтези. Первое — чтобы уменьшить риск ошибок при автоматическом аннотировании, второе — чтобы исключить описания вымышленных миров.
Новостные сообщения загружались специальным краулером в течение нескольких лет. Мониторингом было охвачено около 100 новостных сайтов (государственных и региональных, отечественных и переводных зарубежных, общетематических и специализированных). Загруженные страницы обрабатывались алгоритмом удаления служебной информации jusText.
Лингвистическое аннотирование
Лингвистическое аннотирование выполнялось конвейером PaRuS_pipe, созданным с целью повышения точности лемматизации. Подробное его описание приведено на отдельной странице.
Дедупликация, фильтрация и перемешивание предложений
Дедупликация выполнялась на уровне предложений. По тексту предложения вычислялась свёртка на базе хэш-функции SHA-256. Уникальность свёртки контролировалась в масштабе всего корпуса.
Из корпуса удалялись предложения, в которых содержалась низкочастотная лексика. Это позволило избавиться от значительной доли опечаток и последовательностей символов, не являющихся словами. Дополнительно выполнялась фильтрация предложений, удовлетворяющих определенным шаблонам (операция выполнялась под контролем человека-оператора).
Последним шагом в создании корпуса было перемешивание предложений в случайном порядке. Такой приём позволил избежать необходимости рассмотрения правовых вопросов, связанных с текстами-источниками.