![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Целью исследования является разработка подходов и практических средств, позволяющих систематически выявлять и устранять существенные неточности существующих оценочных функций для ранжирования лиганд-рецепторных комплексов. Разработанные подходы и средства позволят улучшить качество предсказания активности оценочных функций, что приведет к повышению результативности и эффективности всего процесса разработки лекарств.
Computed aided modeling is an intrinsic and important part of the contemporary drug discovery process, since it permits to explore a greater number of hypotheses with expenses less than they are in case of experimental testing, and provides also the interpretation to the obtained results and new ideas for further development. At early stages of drug discovery the methods of virtual screening based on molecular docking of trial ligands to the studied receptor model have received wide dissemination. The main task of this stage is to select the molecules, which could be developed into efficient ligands to the receptor, out of a large virtual library of structures. The estimation of the quality of interactions formed and the probability of forming a particular ligand-receptor complex is done using the scoring functions (SF). The main requirement to the scoring functions is the ability to provide a reliable answer, to which extent a particular location of a ligand in a binding site is likely to occur, avoiding large computational expenses. Therefore it is the “speed of calculation” - “quality” ratio that matters. Traditionally three classes of scoring functions have been used: physics based, empirical and knowledge-based ones. Recently the fourth class - the scoring functions based on machine learning - has been actively developed and currently achieves the most accurate prediction metrics. The accuracy of a scoring function eventually defines how much time and resources would be effectively wasted in vain at later - more laborious - stages of drug discovery. It is widely accepted that different scoring functions differ in quality of description at different combinations of ligands and receptors. A practical consequence is the wide dissemination of consensus scoring, in which the final ranking of potential molecules is done using the combined voices (shares) of several different scoring functions. It has been shown that in this case, even if one or a few of the scoring functions produces a significantly wrong prediction, the consensus value remains more robust to such outliers. In particular it means that for each scoring function there exist such combinations of ligands (molecular fragments within it) and receptors (their amino acid composition in case of proteins), which are more prone to errors. Taking into account that the main purpose of scoring functions is fast scoring of the large number of structures, an application of complicated theoretical approaches appears unwarranted for practical reasons. Explicit knowledge of badly accounted interactions in scoring functions helps to focus resources on their repairment. Thus a method to reveal such badly accounted interactions, at least, is required to explicitly define the applicability domain of a particular scoring function and, at best, will guide the enhancement studies. The latter results in both the widening of the applicability domain of scoring functions and the overall improvement in quality of interaction description via scoring functions. As a means of identification of badly accounted interactions within scoring functions we propose to study the following approach within the project. For a representative set of ligand-receptor complexes, for which both geometry and binding energy are well defined, an estimation of a chosen scoring function is done using the experimental complex geometry. Residual errors (the difference between the experimental energies and SF scores) are proposed to be interpreted in terms of presence (and the count) of particular fragments in ligands. In particular, it is planned to select such query fragments to represent basic known interactions, such as hydrogen bond donors and acceptors, charged groups, aromatic and lipophilic fragments. In order to derive the quantitative measures, a Free-Wilson type QSAR model is built, in which the residual error of SF prediction is correlated to the presence (and the count) of a fragment in a set of ligands. In case the statistically significant correlations have been derived, there appear the rational grounds to more deeply scrutinise the interactions involving the revealed ligand fragment and receptor. The results of this study could in turn set up the directions for further SF improvements. One of the practical hypotheses, which is planned to be tested, is to check whether the presence of heavy halogen containing aromatic moiety, Ar-Hal, in ligands correlates to the residual SF error. The latter would mean a separate account of halogen bonding (Ar-Hal -- O,N,pi), explicitly missing in most of the contemporary scoring functions, is required. A systematic application of the approach described above will make it possible to significantly enhance the quality of interactions description by means of scoring functions, in case appropriate solutions to the problematic interaction cases, acceptable by quality-price ratio, happen to be proposed and implemented. An important feature of the approach is its universality - it is applicable to the improvement of any evaluation functions.
В рамках проекта планируется отработать методику систематического улучшения оценочных функций (ОФ) за счет статистически значимой идентификации фрагментов в лигандах, коррелирующих с остаточной ошибкой описания экспериментальных энергий связывания при помощи исследуемых ОФ. Методика позволит сфокусировать улучшение существующих ОФ (или даст идеи для реализации новых) с целью повышения точности описания энергии взаимодействий лиганд-рецептор. Улучшения ОФ (проведенные за рамками проекта), соответствующие хорошему соотношению точности и вычислительной простоты, позволят увеличить результативность и эффективность процесса разработки новых лекарств.
Исследование влияния фрагментов на связывание в широком контексте лиганд-рецепторного взаимодействия и, в частности, при помощи оценочных функций является новым направлением для группы. Вместе с тем у коллектива есть задел в составных и смежных областях исследования. Так, есть задел по разбиению оценки свободной энергии взаимодействия лиганд-рецептор на вклады от конкретных фрагментов лиганда. Существует большой задел в области изучения галогеновых взаимодействий и оценки его неучета в существующих силовых полях и оценочных функциях. Есть опыт построения моделей структура-свойство и структура-активность (QSPR/QSAR). Есть также общий опыт прикладного компьютерного моделирования в различных аспектах, связанных с начальными стадиями разработки лекарств. Таким образом, имеющийся задел дает все предпосылки к достижению заявленных результатов.
В результате проведенной работы разработана и опробована общая методкиа для выявления статистически значимых корреляций остаточной ошибки описания экспериментальной энергии связывания лиганд-рецептор при помощи оценочных функций (ОФ) разных классов. Показано, что существующие ОФ неоднородны по учету различных эффектов: выявлены как общие для всех ОФ закономерности, так и частные наблюдения, которые могут позволить улучшить определенные ОФ. Методика доказала свою общность и была использована для объяснения остаточной ошибки, как "фрагментным базисом" (отвечающим за определенный вид медхимически релевантных межмолекулярных взаимодействий), так и общими физико-химическими молекулярными дескрипторами и наличием определенных фрагментов в молекуле лиганда. Вместе с тем, выявлено, что само описание аффинности лиганд-рецепторных комплексов через оценку энергий взаимодействия лиганда и рецептора может потребовать уточнения, что подтверждается мировыми результатами о достигнутом пределе точности описания аффинности (для не переученных систем).
грант РНФ |
# | Сроки | Название |
1 | 28 декабря 2021 г.-31 декабря 2022 г. | Систематическое улучшение оценочных функций путем выявления фрагментов молекул, проблемных для корректного описания взаимодействий лиганд-рецептор |
Результаты этапа: В результате проделанной работы достигнуты следующие конкретные научные результаты. 1. На основании проведенного обзора литературы произведен обоснованный выбор базы данных coreset CASF-2016 Update лиганд-рецепторных комплексов с известной экспериментальной активностью. 2. На основании данных проведенного фокусированного обзора литературы и использования результатов исследования CASF-2016 Update обоснованно произведен выбор набора ОФ для исследований в проекте с учетом представленности известных классов ОФ и распространенности, а также некоммерческой доступности выбранных ОФ. Итоговый набор ОФ включает AutoDock4.2, AutoDock Vina, AutoDock VinaXB (XBSF), X-Score, ΔVina RF20, NNScore 2.0, NNScore 2.0, а также упрощенную ОФ ΔSAS, представляющую из себя изменение площади поверхности лиганда и рецептора при комплексообразовании. 3. Проведен анализ средних и дисперсий предсказания экспериментальных энергий связывания при помощи различных ОФ, использованных в исследовании. Величины стандартных отклонений, полученные в исследовании, в диапазоне 1.2-1.8 pK (1.7-2.5 ккал/моль) соответствуют литературным данным по современной точности ОФ. Более детальный анализ структур комплексов, для которых ошибка превышает несколько стандартных отклонений, выявил, что электростатические взаимодействия в ОФ AutoDock4.2 недостаточно сбалансированы с энергией десольватации и с гидрофобными взаимодействиями, что проявляется в существенных выбросах для комплексов, где не соблюдается усредненный состав по вкладам в энергию связывания. 4. В результате работы показано, что на используемой в работе выборке присутствуют молекулы с тяжелыми атомами галогена в составе, а специальный учет наличия таких атомов положительной коррелирует как экспериментальными значениями pK, так и часто вносит ощутимую поправку в описание pK при помощи ОФ. Показано также, что специализированная ОФ AutoDock Vina, несмотря на то, что способна качественно определить наличие галогеновых связей, судя по всему, придает этим взамодействиям недостаточный вес так, чтобы этот вклад был различим в итоговом предсказании pK. Таким образом, показана важность учета галогенового связывания в ОФ и вместе с тем не закрытость этого вопроса в полней мере, несмотря на множество исследований в этой области. Обнаружена корреляция pK с наличием атома фтора в лигандах. В отличие от галогенового связывания, образуемого тяжелыми атомами галогена в молекулах, положительная корреляция афинности с наличием атомов фтора имеет другую природу. Атомы фтора добавляются в молекулу для оптимизации AMDET свойств соединений-лидеров на поздних этапах разработки. Таким образом, сам факт наличия атомов фтора в молекуле просто свидетельствует о том, что молекула уже достаточно хорошо оптимизирована по афинности, раз дошла до стадии оптимизации метаболизма. 5. В результате работы составлен «фрагментный базис», отражающий возможность образовать прототипические взаимодействия со стороны лиганда, и проведена оценка корреляции наличия таких фрагментов и остаточной ошибки описания экспериментальных pK при помощи различных ОФ. Показано, что остаточные ошибки описания экспериментальных pK лиганд-рецепторных комплексов при помощи различных ОФ по-разному коррелируют с наличием в лигандах определенных фрагментов, отвечающих за конкретные межмолекулярные взаимодействия. Сопоставление полученных результатов с другими данными по исследуемым ОФ позволяет констатировать, что предлагаемый подход оказался плодотворным для выявления направлений систематической модификации ОФ с целью улучшения точности и согласованности их описания. Дополнительные результаты: 1. выделение вкладов фрагментов, более сложных, чем фрагменты из базиса для межмолекулярных взаимодействий, хорошо описывается in silico в рамках разработанного ранее подхода R-FBDD. Это закладывает базис для выделения вкладов более сложных фрагментов в остаточную ошибку ОФ. Однако для такого анализа потребуется гораздо больший набор лиганд-рецепторных комплексов, чем был использован в пилотном исследовании (271 из набора coreset CASF-2016 Update). 2. пилотно показано, что подход с рассмотрением связывания лиганд-рецептор в терминах связывания фрагментов-в-лиганде с рецептором позволяет оценить энтропийную составляющую связывания некоторых фрагментов, а также учесть особенность рецепторов по площади поверхности, закрытости и соотношению определенных межмолекулярных взаимодействий. | ||
2 | 1 января 2023 г.-31 декабря 2023 г. | Систематическое улучшение оценочных функций путем выявления фрагментов молекул, проблемных для корректного описания взаимодействий лиганд-рецептор |
Результаты этапа: В результате проделанной на второй этапе проекта работы достигнуты следующие конкретные научные результаты. 1. Достигнуто значительное расширение статистической базы для предлагаемого систематического подхода исследования узких мест существующих оценочных функций (ОФ), предложенного в качестве пилотной версии в рамках первого этапа работ. Расширение проведено по трем направлениям: а) подключены к работе (после дополнительной фильтрации) лигад-белковые комплексы из набора PDBBind Refined Set — более многочисленные по сравнению с PDBBind Coreset (использован на первом этапе), но и менее надежные, б) расширен набор протестированных в работе оценочных функций до представительной серии: AutoDock 4.2, AutoDock Vina, AutoDock VinaXB, X-Score, ∆VinaRF20, NNScore 2.0, DrugScoreX(DSX), ∆SAS, CYSCORE, SEED, DLSCORE, GEMDOCK, PLANTS, RXDock, в) общий подход применен к описанию остаточной ошибки в терминах общих физико-химических дескрипторов и топологических индексов, где выявлены дополнительные систематические несоответствия ОФ экспериментальным данным (оценка аффинности). 2. Проведено исследование возможности замены зарядов Гастайгера, используемых в ОФ AutoDock4.2, на заряды, дающие более качественное воспроизведение электростатических взаимодействий, в том числе, используемых в силовых полях молекулярной механики. В результате работы показано, что, вопреки ожиданиям, электростатическая составляющая в ОФ AutoDock4.2 не чувствительна не только к нюансам электростатического описания, но и к наличию зарядов в ОФ вообще. Доминирующий и наиболее хорошо статистически определенный вклад в энергию лиганд-рецепторных взаимодействий вносит гидрофобное взаимодействие, оцениваемое в рамках ОФ AutoDock4.2 при помощи масштабированной энергии ван-дер-Ваальсовых взаимодействий. Частично, полученный результат объясняется тем, что в составе ОФ AutoDock4.2, являющейся ОФ, основанной на физике (или силовых полях), присутствует явный эмпирический член для описания энергии водородных связей. Такое описание водородных связей использовалось на заре развития классических силовых полей, но в данный момент является избыточным, поскольку в силовых полях давно показано, что водородные связи хорошо описываются при помощи сочетания электростатического взаимодействия (посредством атомных зарядов) и ван-дер-Ваальсова (ограничивающего расстояние максимального притяжения). Действительно, после исключения эмпирического члена и переподбора параметров ОФ AutoDock4.2 значимость электростатических взаимодействий существенно выросла. Однако статистические показатели общей модели изменились несущественно. Таким образом, мы рекомендуем разработчикам исключить эмпирическое слагаемое для учета водородных связей из текущей версии ОФ AutoDock4.2. Тем не менее, выявленная общая неважность электростатических взаимодействий в условиях описания аффинности при помощи межмолекулярных взаимодействий на основании экспериментально определенной геометрии комплекса («скоринг тест», «scoring power test» в терминах бенчмарка оценочных функций CASF) ставит перед исследователями в области концептуальный вопрос о том, насколько хорошо мы понимаем природу взаимодействий лиганд-рецептор. В частности, нами сделано предположение, что наличие водородных связей в комплексах известных лекарств с их рецепторами выполняет больше функцию обеспечения селективности и стабилизации моды связывания, чем непосредственного увеличения аффинности взаимодействия. Аналогично, в терминах докинга, электростатические взаимодействия, скорее всего, играют важную роль в поиске верной моды связывания лиганда с рецептором («docking power test» в терминах CASF), однако проверка этой гипотезы будет проведена вне рамок данной работы, поскольку требует тщательной проработки и не входила в изначальные планы по проекту. 3. Разработан алгоритм разбивки органических лекарствоподобных структур на фрагменты, имеющие медхимическую значимость, как в терминах интуитивного восприятия медхимиками, так и в терминах максимального сохранения в получаемых фрагментах существующих в лиганде специфических взаимодействий с рецептором. Анализ существующих подходов выявил, что алгоритмов с такими свойствами нет в общем доступе, поэтому правила разбивки лигандов были разработаны самостоятельно и валидированы на выборке из 298 лекарств, взятых из базы DrugBank. Разработанный алгоритм был использован для анализа корреляции остаточной ошибки с наиболее часто встречаемыми фрагментами из лигандов выборки PDBBind Refined Set. Из лигандов 4095 комплексов было получено 10424 фрагмента. Фрагменты были кластеризованы, поскольку визуальный анализ предварительных результатов выявил, что при фрагментации получается большое число незначительно отличающихся фрагментов, которые вполне можно считать эквивалентными. Уже на выделенных центроидах подобных кластеров был проведен анализ корреляции остаточных ошибок серии ОФ в воспроизведении экспериментальных значений в зависимости от наличия выделенных наиболее часто встречаемых в выборке фрагментов. Выявлены, как общие закономерности для разных ОФ, так и закономерности, характерные только для определенных ОФ. В частности, показано, что ароматические взаимодействия переучитываются всеми исследованными ОФ, кроме AutoDock4.2, в котором наблюдается их недоучет. Полярные фрагменты переучитываются всеми исследованными ОФ, что согласуется с результатами других направлений исследования. Важность формально заряженных фрагментов переучтена во всех исследованных оценочных функций, кроме ∆VinaRF20. Оценочными функциями, требующими минимальное количество поправок в рамках нашего исследования являются ∆VinaRF20 и X-Score. При этом DrugScoreX, dSAS, AutoDock 4.2, ∆VinaRF20 несколько недоучитывают влияние гидрофобных групп. 4. В дополнение к поставленным на этап задачам было проведено дополнительное исследование, проливающее свет на еще один способ учета систематических недостатков текущих ОФ. Анализ функциональных форм существующих ОФ показывает, что при описании аффинности лиганд-рецепторного комплекса учитываются только комплементарные взаимодействия, такие как контакты гидрофобных частей лиганда и рецептора, а также удачное пространственное расположение доноров и акцепторов водородных связей лиганда и рецептора. С другой стороны, существующая практика моделирования показывает, что результаты докинга в большинстве случаев подвергаются экспертной оценке. Одним из предположений было, что такая экспертная оценка способна выявляет некомплементарные контакты в комплексах лиганд-рецептор. Нами был проведен численных эксперимент, в котором значения площадей контактов различных типов коррелировали с экспериментальными значениями аффинностей комплексов. Показано, что доминирующий вклад вносит площадь гидрофобных контактов лиганд-рецептор. Вторыми по значимости являются комплементарные контакты доноров и акцепторов водородных связей. Некомплементарные контакты вносят в большинстве случаев положительный вклад в повышение предсказанной аффинности, однако статистическая значимость этого вклада невелика. Наименее значимым оказался учет строго некомплементарных контактов, таких как близость доноров водородной связи лигандов к донорам рецепторов, а также аналогичная пара для акцепторов. Таким образом, показано, что существующее приближение учета только комплементарных контактов адекватно по сочетанию простоты и результата, а учет некомплементарных контактов способен дать лишь небольшую поправку к точности. 5. Таким образом, показано, что разработанный подход систематического выявления узких мест существующих ОФ оказывается работоспособным для анализа остаточной ошибки не только в терминах взаимодействий с фрагментым базисом (работа первого этапа), но и с применением общемолекулярных физико-химических дескрипторов, а также наиболее часто встречаемых конкретных фрагментов из лиганд-рецепторных комплексов. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".