Влияние токенизации на оценку качества нейросетевого синтаксического анализа - доклад на конференции | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Авторы: Шамаева Елена Денисовна, Лукашевич Наталья Валентиновна
Международная Конференция : XXVII International Conference “Data Analytics and Management in Data Intensive Domains” (DAMDID/RCDL 2025)
Даты проведения конференции: 29-31 октября 2025
Дата доклада: 31 октября 2025
Тип доклада: Устный
Докладчик: не указан
Место проведения: Санкт-Петербург, Россия
Аннотация доклада:
Синтаксические анализаторы используются в качестве вспомогательного инструмента в разных областях автоматической обработки текста. Поэтому важными направлениями исследований являются разработка критериев выбора синтаксического анализатора для конкретной прикладной задачи и методология оценки качества синтаксического анализатора. На оценку качества синтаксического анализатора влияет этап токенизации. Существует два способа оценки синтаксического анализатора: с использованием встроенного токенизатора и с использованием токенизатора, возвращающего эталонную разметку. Данная статья посвящена сравнению этих способов оценки качества синтаксического анализа. Исследование проведено на русскоязычных корпусах предложений с синтаксической разметкой SynTagRus, GSD, PUD, Taiga, Poetry и для русскоязычных синтаксических анализаторов UDPipe, Stanza, Natasha, DeepPavlov и spacy. Выявлено, что для значимого количества предложений разделение на токены, проводимое встроенным токенизатором, отличается от эталонного. Установлено также, что средние значения метрик UAS и LAS выше при использовании токенизатора, возвращающего эталонную разметку. Разработанная методология описания категорий токенов может использоваться для проверки качества синтаксического анализа при внедрении нового токенизатора. В рамках данного исследования для каждого из рассматриваемых анализаторов реализован токенизатор, возвращающий эталонный набор токенов из датасета. Реализация исследования доступна по адресу: https://github.com/Derinhelm/parser_stat/tree/tokenization_changing.

Доклад на конференции выполнен в рамках проекта (проектов):

Добавил в систему: Шамаева Елена Денисовна

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ПсковГУ
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ПсковГУ

Влияние токенизации на оценку качества нейросетевого синтаксического анализадоклад на конференции