|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Синтаксические анализаторы используются в качестве вспомогательного инструмента в разных областях автоматической обработки текста. Поэтому важными направлениями исследований являются разработка критериев выбора синтаксического анализатора для конкретной прикладной задачи и методология оценки качества синтаксического анализатора. На оценку качества синтаксического анализатора влияет этап токенизации. Существует два способа оценки синтаксического анализатора: с использованием встроенного токенизатора и с использованием токенизатора, возвращающего эталонную разметку. Данная статья посвящена сравнению этих способов оценки качества синтаксического анализа. Исследование проведено на русскоязычных корпусах предложений с синтаксической разметкой SynTagRus, GSD, PUD, Taiga, Poetry и для русскоязычных синтаксических анализаторов UDPipe, Stanza, Natasha, DeepPavlov и spacy. Выявлено, что для значимого количества предложений разделение на токены, проводимое встроенным токенизатором, отличается от эталонного. Установлено также, что средние значения метрик UAS и LAS выше при использовании токенизатора, возвращающего эталонную разметку. Разработанная методология описания категорий токенов может использоваться для проверки качества синтаксического анализа при внедрении нового токенизатора. В рамках данного исследования для каждого из рассматриваемых анализаторов реализован токенизатор, возвращающий эталонный набор токенов из датасета. Реализация исследования доступна по адресу: https://github.com/Derinhelm/parser_stat/tree/tokenization_changing.