|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
В данной статье мы представляем новую серию наборов данных для поиска информации на русском языке, созданных на основе раздела «Знаете ли вы...» Русской Википедии. Наши наборы данных поддерживают ряд задач поиска, включая проверку фактов, генерацию дополненной реальности и поиск полных документов, используя интересные факты и ссылки на статьи Википедии, аннотированные на уровне предложений с градуированной релевантностью. Мы описываем методологию создания наборов данных, позволяющую расширить существующие ресурсы поиска информации на русском языке. Проведя масштабные эксперименты, мы расширяем исследование RusBEIR, сравнивая модели лексического поиска, такие как BM25, с современными нейронными архитектурами, оптимизированными для русского языка, а также с многоязычными моделями. Результаты наших экспериментов показывают, что лексические методы, как правило, превосходят нейронные модели при поиске полных документов, в то время как нейронные подходы лучше отражают лексическую семантику в более коротких текстах, например, при проверке фактов или мелкозернистом поиске. Используя наши новые наборы данных, мы также анализируем влияние длины документа на производительность поиска и демонстрируем, что сочетание поиска с нейронным реранжированием стабильно улучшает результаты. Наш вклад расширяет ресурсы, доступные для исследований в области поиска информации на русском языке, и подчёркивает важность точной оценки моделей поиска для достижения оптимальной производительности. Все наборы данных доступны в открытом доступе на HuggingFace. Для обеспечения воспроизводимости результатов и поддержки будущих исследований мы также публикуем полную реализацию на GitHub.
| № | Имя | Описание | Имя файла | Размер | Добавлен |
|---|