|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Для интенсификации поиска растений-гипераккумуляторов тяжелых металлов и металлоидов (ТММ) по материалам оригинальных рецензируемых научных статей мы создаем базу данных, интегрирующую информацию о филогении, экологии, биогеографии, морфологических характеристиках (а также и из глобальных баз данных “World Checklist of Vascular Plants”; “LEDA”, “TRY”, “BiolFlor” и др.), содержании химических элементов в покрытосеменных растениях, а также почвах, на которых они произрастают. В базе данных «Scopus» по запросам “heavy metals and hyperaccumulator” и “plant and heavy metals” в названии, аннотации и ключевых словах найдено 1,6 и 16,8 тыс. результатов соответственно. С помощью функционала платформы «Scopus», скриптов, написанных на языке «Python» и исполненных в среде разработки «Spyder» (дистрибутив «Anaconda»), ручного скачивания в Google Scholar получены pdf-файлы соответствующих работ. Для парсинга материала оригинальных статей использован язык программирования “Python”, в сложных случаях – нейросетевые онлайн-ресурсы. Из *pdf-файлов весь текст извлечен с помощью библиотек “PyPDF2” и “pdfplumber”. Библиотека “json” использована для работы с данными в формате *json, “pandas” - создания таблицы из полученных *json-файлов и последующей работы с ней, “pyodbc” - для записи информации из *json-файлов в базу данных Microsoft Access. После поиска реперных слов и сочетаний в тексте публикаций началась работа с табличными данными, среди которых выделили наиболее частотные варианты и уже для них разработали шаблон для последующего парсинга. Полезная информация из оставшихся наиболее сложных случаев извлечена с помощью DeepSeek-V3-0324 или вручную. Для устранения систематических ошибок парсинга данные из *json-файлов экспортировали в сводные таблицы формата *xls и выборочно (10-20%) перепроверяли, сравнивая с оригиналом статьи. API нейронной модели DeepSeek использован для: 1. выявления названий растений, которые позднее вручную приводили к общепринятому названию; 2. извлечения машинно сложно обрабатываемых данных из текста и их структурирования. Является ли растение гипераккумулятором конкретного металла, выполнено вручную по пороговым содержаниям. Для наших задач наиболее информативными и легкими в последующей обработке оказалось 15-20% статей, содержавших полные данные о содержании ТММ в растениях и почве. В 40-50% статей искомые данные были в трудно обрабатываемом формате и требовали ручной проверки и дополнительной обработки. В трети публикаций потенциально полезная для нас информация обобщена или отсутствовала. Итоговая база данных реализована в Microsoft Access и состоит из трех основных блоков таблиц: 1. Данные о публикации, регионе работ, элементном составе растений и почв 2. Таксономия и верификация видов растений 3. Характеристики видов растений из внешних баз данных. Полученная база объединяет информацию о 1502 видах цветковых растений, принятых в POWO, 410 видах, для которых приведены синонимы, большая часть из которых - синонимы уже принятых названий, но часть может быть уникальной (синонимы к названиям, которых в базе нет), а также 147 сложных случаях, с которыми нужна дополнительная работа. По предварительным результатам виды-гипераккумуляторов эссенциальных Co, Cu, Mn, Ni, Zn, а также Cd (последний как очень близкий по химическим свойствам с Zn) кластеризуются на дереве жизни покрытосеменных (APG-IV), а неэссенциальных As и Au – рассеяны дисперсно. Исследование выполнено в рамках проекта РНФ № 25-24-00343.
| № | Имя | Описание | Имя файла | Размер | Добавлен |
|---|