|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
В 2024 году нами было опубликован филогенетический бенчмарк PhyloBench, состоящий из выравниваний последовательностей ортологических групп эволюционных доменов белков из организмов различных таксонов, всего более 10000 выравниваний. Референсными деревьями служат деревья соответствующих видов. В той же работе было проведено сравнение нескольких филогенетических программ на основе предложенного бенчмарка. Сравнение показало, что на данном материале методы филогенетической реконструкции, основанные на принципе максимального правдоподобия (МП), в среднем проигрывают в точности дистанционным методам, таким, как Neighbor-joining. В то же время показано, что если ограничиться только выравниваниями с достаточно большим числом позиций, то МП начинает в среднем выигрывать, а для наборов ортологичных белков, референсное дерево которых имеет глубокое ветвление, то есть значительная часть видообразования происходила ближе к корню, разница между методом МП и дистанционными методами становится недостоверным. Метод максимальной экономии (парсимонии) показывает худшие среди всех методов результаты, особенно сильно отставая на «глубоко ветвящихся» наборах последовательностей. В другой нашей работе был представлен бенчмарк из выравниваний двухдоменных белков и проведено исследование влияния фильтрации выравниваний на качество реконструкции. Выяснено, что отбрасывание междоменных линкеров однозначно отрицательно влияет на качество филогенетической реконструкции. Что касается фильтрации программой NOISY, то она может быть полезна только для выравниваний эукариотических белков и только при определённых условиях на количество последовательностей в выравнивании и его длину. К настоящему времени нами создан бенчмарк из нуклеотидных выравниваний, а именно из выравниваний последовательностей генов ортологичных белков млекопитающих. Значительная доля позиций белковых последовательностей консервативна в пределах класса млекопитающих, поэтому основной филогенетический сигнал в таких выравниваниях сосредоточен в синонимических позициях кодонов. Первые результаты сравнений программ показали, что на таких нуклеотидных выравниваниях МП превосходит дистанционные методы по точности, то есть имеет место ситуация, обратная к тому, что наблюдается для последовательностей ортологичных белков относительно удалённых организмов. Во всех случаях разброс качества реконструкции между различными выравниваниями существенно превосходит разброс качества между различными методами, применёнными к одному и тому же выравниванию. Нами получены определённые результаты по предсказанию качества филогенетической реконструкции по свойствам выравнивания и реконструированного дерева методами машинного обучения. Ещё одним направлением работы с бенчмарками является оценка предсказательной силы различных мер достоверности ветвей дерева, таких как бутстреп-поддержка.