|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Определение молекулярной структуры по одномерным 1H- и 13C-ЯМР-спектрам остаётся сложной задачей, зачастую требующей значительных экспертных усилий и дополнительных спектроскопических данных. Несмотря на то, что интерес к автоматизации интерпретации спектров ЯМР с каждым годом продолжает возрастать, инструментальные шумы, перекрытие сигналов и неполнота данных ограничивают применимость многих современных подходов машинного обучения1. Существующие методы машинного обучения, как правило, обучаются либо на небольших наборах экспериментальных данных с ограниченным химическим разнообразием, либо на теоретически рассчитанных спектрах, недостаточно точно отражающих экспериментальную реальность2. В настоящей работе мы предлагаем архитектуру на основе трансформера, обученную на крупнейшем корпусе экспериментальных ЯМР-спектров OdanChem, автоматически извлечённых из научной литературы. Для обработки двух типов спектральных данных используется бимодальная архитектура трансформера, преобразующая выходные списки сигналов в SMILES-представление молекулы. Доля полных совпадений сгенерированной моделью молекулы с эталонной достигает 50 %, что значительно превосходит результаты ранее опубликованных подходов, особенно в условиях отсутствия априорной информации о молекуле (например, ограничений на размер, наличие функциональных групп или фрагментов). Кроме того, модель демонстрирует устойчивую работу для соединений с высоким молекулярным весом, множественными циклами и гетероатомами, включая фтор- и азотсодержащие структуры.