Аннотация:Обоснование. Современные большие языковые модели обладают потенциалом использования в лучевой диагностике для решения широкого спектра рутинных задач.Цель исследования. Провести обзор предметного поля применения больших языковых моделей в лучевой диагностике с анализом возможных сценариев их использования и оценкой качества методологии соответствующих исследований.Методы. Провели два варианта поиска — первичный (PubMed и eLibrary), ориентированный на выявление полнотекстовых публикаций с максимально проработанной методологией, и дополнительный (PubMed), направленный на широкий охват сценариев применения больших языковых моделей в лучевой диагностике за период 2023–2025 гг. Извлекали библиометрические данные, формулировку исследовательской задачи, сценарий применения больших языковых моделей, нозологический профиль, ключевые методологические параметры, а также количественные и качественные показатели диагностической эффективности как моделей, так и участвующих специалистов, включая их число и опыт. Качество исследований оценивали с использованием модифицированного опросника QUADAS-CAD.Результаты. При первичном поиске для анализа отобрано 9 публикаций, при дополнительном — 216. Найдено 9 основных сценариев применения больших языковых моделей в лучевой диагностике. Наиболее распространёнными из них было переформулирование рентгенологических заключений с целью повышения их доступности восприятия пациентами. Преимущественно использовали модели GPT-4 и BERT, а также GPT-3.5, Llama 2, Med42, GPT-4V и Gemini Pro. Большая языковая модель GPT-4 продемонстрировала высокую точность при диагностике опухолей головного мозга (73,0%), миокардитов (83,0%), а также в случае принятия решений о проведении инвазивной процедуры при остром коронарном синдроме (86,0%). В свою очередь, она продемонстрировала низкую диагностическую точность в отношении патологий нервной системы различной этиологии (50,0%) и заболеваний опорно-двигательной системы (43,0%). Модель BERT показала высокую диагностическую точность в задачах детекции лёгочных узелков (99,0%) и признаков внутричерепного кровоизлияния (чувствительность и специфичность — 97,0 и 90,0% соответственно), а также при классификации заключений (точность 84,3%).Большинство работ (88,9%) содержат вероятность систематической ошибки. Основные причины этого: маленький объём и несбалансированность выборок, пересечение обучающих и тестовых наборов данных, недостаточно аккуратная подготовка и описание референсных стандартов.Заключение. Показатели диагностической точности больших языковых моделей сильно варьируют между разными исследованиями. Для их внедрения в клиническую практику необходимо проведение стандартизированных и методологически качественных исследований, включающих увеличение объёма и сбалансированности выборок, оптимизацию структуры и объёма наборов данных, формирование неперекрывающихся обучающих и тестовых выборок, тщательную подготовку и описание референсных стандартов, а также накопление эмпирических данных по отдельным задачам лучевой диагностики.