|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
В данной работе исследуются методы дистилляции для больших языковых моделей (LLM) с целью разработки компактных моделей, сохраняющих высокую производительность. Рассматриваются несколько существующих подходов с обсуждением их сильных и слабых сторон. Разработан усовершенствованный метод, основанный на подходе ShortGPT, основанный на идее включения итеративной оценки важности слоёв. На каждом этапе важность оценивается путём измерения снижения производительности при удалении отдельных слоёв с использованием набора репрезентативных наборов данных. Этот процесс сочетается с дальнейшим обучением с использованием функции совместных потерь, основанной на дивергенции KL и среднеквадратичной ошибке. Эксперименты с моделью Qwen2.5-3B показывают, что количество слоёв можно сократить с 36 до 28 (что приводит к модели с 2,47 миллиарда параметров) с потерей качества всего 9,7% и до 24 слоёв с потерей 18%. Результаты показывают, что средние слои-трансформаторы вносят меньший вклад в вывод, что подчёркивает потенциал предлагаемого метода для создания эффективных моделей. Результаты демонстрируют эффективность итеративной дистилляции и тонкой настройки, что делает этот подход пригодным для внедрения в условиях ограниченных ресурсов.
| № | Имя | Описание | Имя файла | Размер | Добавлен |
|---|