|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Для выявления геномных локусов, ассоциированных с полигенными заболеваниями, альтернативой традиционному GWAS является машинное обучение с ранжированием признаков по вкладу в прогнозную модель. Чтобы это реализовать, нужно решить проблему дисбаланса классов (больные и контроль) и научиться отбирать признаки по метрике, которая в отличие от p-значений, не имеет порога. В работе представлен биоинформатический подход, решающий обе задачи. Он основан на обучении алгоритма случайного леса на рандомизированных выборках с ранжированием признаков по уменьшению неопределенности и отбором по частоте встречаемости среди топовых значений, а также стабильности важности вклада. Подход валидирован на симулированных генотип-фенотипических данных.