Аннотация:Для интенсификации поиска растений-гипераккумуляторов тяжелых металлов и металлоидов (ТММ) по материалам оригинальных рецензируемых научных статей мы создаем базу данных, интегрирующую информацию о филогении, экологии, биогеографии, морфологических характеристиках, содержании химических элементов в семенных растениях. В неё же включаем информацию о сопряженных почвах, свойствах и характеристиках найденных видов растений и среде их обитания из глобальных баз данных (World Checklist of Vascular Plants; LEDA, BiolFlor и др). В базе данных «Scopus» по запросам “heavy metals and hyperaccumulator” и “plant and heavy metals” в названии, аннотации и ключевых словах найдено 1,6 и 16,8 тыс. результатов соответственно. С помощью функционала платформы «Scopus», скриптов, написанных на языке «Python» и исполненных в среде разработки «Spyder» (дистрибутив «Anaconda»), ручного скачивания в Google Scholar получены pdf-файлы соответствующих работ. Для парсинга материала оригинальных статей использован язык программирования “Python”, в сложных случаях – нейросетевые онлайн ресурсы. Из *pdf-файлов весь текст извлечен с помощью библиотек “PyPDF2” и “pdfplumber”. Библиотека “json” использована для работы с данными в формате *json, “pandas” - создания таблицы из полученных *json-файлов и последующей работы с ней, “pyodbc” - для записи информации из *json-файлов в базу данных Microsoft Access.После поиска реперных слов и сочетаний в тексте публикаций началась работа с табличными данными, среди которых выделили наиболее частотные варианты и уже для них разработали шаблон для последующего парсинга. Полезная информация из оставшихся наиболее сложных случаев извлечена с помощью DeepSeek-V3-0324 или вручную. Для устранения систематических ошибок парсинга данные из *json-файлов экспортировали в сводные таблицы формата *xls и выборочно (10-20%) перепроверяли, сравнивая с оригиналом статьи. API нейронной модели DeepSeek использован для: 1. выявления названий растений, которые позднее вручную приводили к общепринятому названию; 2. извлечения машинно сложно обрабатываемых данных из текста и их структурирования. Является ли растение гипераккумулятором конкретного металла, выполнено вручную по пороговым содержаниям. Для наших задач наиболее информативными и легкими в последующей обработке оказалось 15-20% статей, содержавших полные данные о содержании ТММ в растениях и почве. В 40-50% статей искомые данные были в трудно обрабатываемом формате и требовали ручной проверки и дополнительной обработки. В трети публикаций потенциально полезная для нас информация обобщена или отсутствовала.Итоговая база данных реализована в Microsoft Access и состоит из трех основных блоков таблиц:1. Данные о публикации, регионе работ, элементном составе растений и почв2. Таксономия и верификация видов растений3. Характеристики видов растений из внешних баз данных.По предварительным результатам виды-гипераккумуляторов эссенциальных микроэлементов кластеризуются на дереве жизни покрытосеменных, а неэссенциальных элементов – рассеяны дисперсно.