|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Данное исследование нацелено на то, чтобы оценить сходства и различия лингвистической компетенции носителей языка и больших языковых моделей (БЯМ). Материалом для сравнения служит созданный нами Корпус Вариативного Согласования (КВаС). Он содержит 7229 предложений с оценками по шкале от 1 до 7, полученными при проведении 22 синтаксических экспериментов по изучению вариативного согласования. Корпус фиксирует средние оценки русских предложений с различными условиями согласования, полученные от носителей языка, и позволяет выяснить, как БЯМ справляются с градуальной оценкой приемлемости. Мы протестировали 5 моделей: преимущественно русскоязычные YandexGPT 5 Pro и GigaChat 2 Max, а также мультиязычные Llama 3 70B, GPT-OSS 120B и Mistral Large 123B. Для каждой модели было опробовано два режима тестирования: zero-shot, содержащий только инструкцию, и few-shot, где добавлены тренировочные предложения и их оценки. Поскольку данные в КВаС демонстрируют различный уровень приемлемости в зависимости от экспериментальных условий, подсчет только средней ошибки для предсказанных моделями оценок недостаточно показателен. Нами разработана метрика, позволяющая оценить, какая доля контрастов между экспериментальными условиями, релевантными для людей, выявляется с помощью БЯМ. Результаты показывают, что среднее значение ошибки меньше для предложений без вариативного согласования. Примеры с согласовательной вариативностью оказываются сложнее для БЯМ. Качество моделей проседает для одного и того же типа конструкций – сочинения. Модели значительно лучше определяют контрасты для конструкций с постпозитивными относительными предложениями, количественными конструкциями и управляющими квантификаторами. Наиболее точное совпадение при выделении значимых контрастов по сравнению с носителями языка демонстрирует мультиязычная модель Mistral, за ней следуют мультиязычная модель GPT и русскоязычная YandexGPT. Русскоязычная модель GigaChat показала более низкое качество. Наименьшее количество контрастов выделяет мультиязычная модель Llama. Добавление примеров в режиме few-shot улучшает среднее качество, но различие незначительно. Результаты показывают, что качество решения задачи градуальной оценки приемлемости сильно отличается для разных классов лингвистических феноменов. Сравнение моделей демонстрирует, что для достижения лучшего качества наиболее важным оказывается количество параметров модели, которое, однако, может быть компенсировано объемом русскоязычных данных при обучении.