ВЛИЯНИЕ ВЕКТОРНЫХ ПРЕДСТАВЛЕНИЙ ТОКЕНОВ НА КАЧЕСТВО РАБОТЫ НЕЙРОСЕТЕВОГО СИНТАКСИЧЕСКОГО АНАЛИЗАТОРА NATASHA

ШАМАЕВА, Е.Д.

Автор: ШАМАЕВА Е.Д.
Сборник: Программирование и вычислительная математика: сборник материалов конференции, посвященной 100-летию со дня рождения Н. П. Трифонова
Год издания: 2025
Издательство: Московский государственный университет им. М.В. Ломоносова
Местоположение издательства: Москва
Первая страница: 138
Последняя страница: 142
DOI: 10.55959/msu012316-6-2025-138-142
Аннотация: В нейросетевом синтаксическом анализаторе Natasha для построения базовых векторых представлений токенов используется словарь векторных представлений. Отсутствующие в нем токены получают одинаковое векторное представление («зашумленные» токены). В статье исследуется взаимосвязь качества синтаксического анализа и доли «зашумленных» токенов в предложении. Установлено, что в большинстве предложений от 20% до 40% токенов являются «зашумленными». На значительной доле этих предложений синтаксический анализатор достигает высоких значений по метрикам UAS и LAS. Однако выявлены и предложения, на которых синтаксический анализатор демонстрирует высокое качество работы, несмотря на высокую долю «зашумленных» токенов. В рамках данного исследования реализована программа, позволяющая извлекать базовые векторные представления токенов, используемые в синтаксическом анализе: https://github.com/Derinhelm/parser_stat/tree/natasha_emb.
Добавил в систему: Шамаева Елена Денисовна

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ПсковГУ
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ПсковГУ

ВЛИЯНИЕ ВЕКТОРНЫХ ПРЕДСТАВЛЕНИЙ ТОКЕНОВ НА КАЧЕСТВО РАБОТЫ НЕЙРОСЕТЕВОГО СИНТАКСИЧЕСКОГО АНАЛИЗАТОРА NATASHAстатья