ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ПсковГУ |
||
В проекте решается междисциплинарная фундаментальная задача использования лингвистических и когнитивных семантик при анализе больших массивов текстов на примере автоматизации выявления потребностей секторов экономики в цифровых платформах и сквозных технологиях. Обосновывается возможность замены ручных экспертных процедур по оценке указанных потребностей на автоматизированные. К настоящему времени традиционные методы и технологии семантического анализа, тематического моделирования, прецедентного анализа, разведочного поиска и коллаборативной фильтрации преимущественно опираются на учет формализуемых (денотативных) семантик. В настоящей работе предлагается развить авторские идеи учета различных семантик, как не имеющих явной формализованной репрезентации, так и хорошо поддающихся алгоритмизации. Для этого у авторов имеется теоретический и практический задел по интеграции подходов по автоматизации когнитивного моделирования с применением методов анализа больших массивов текстов, глубокого обучения, решения прямых и обратных задач на когнитивных моделяхи использовании при этом неметризуемых топологических пространств, а также создания сетевых экспертно-аналитических систем. В рамках проекта планируется создание архитектуры, экспериментального стенда и программного обеспечения с апробацией на нем разрабатываемых методов, моделей и алгоритмов.
The project addresses the multidisciplinary fundamental task of using linguistic and cognitive semantics in the analysis of large-scale text collections by automating the identification of the needs of the economic sectors for digital platforms and end-to-end technologies. The possibility of replacing manual expert procedures related to the analysis of these needs by automated ones is justifies. Traditional methods and technologies of semantic analysis, topic modeling, case analysis, exploratory search and collaborative filtering are mainly based on the denotative semantics. In this project, we propose to develop author's ideas of taking into account various semantics both without explicit formalized representation and with well-suited algorithmization. The authors have a theoretical and practical background on integrating approaches to automating cognitive modeling using deep learning methods, solving direct and inverse problems on cognitive models and using non-metrizable topological spaces, as well as creating network expert and analytical systems. Within the project, we plan to create an architecture, an experimental prototype and software for approbation of the developed methods, models and algorithms.
1 этап: 1. Формализация постановки задачи и уточнение понятийного аппарата. (Ершова, Тихомиров, Хохлов, Елизаров, Райков, Отмахова) 2. Анализ мирового опыта выявления потребностей секторов экономики в перспективных цифровых платформах и сквозных технологиях, а также - определения TRL. (Ершова, Отмахова, Парадовская, Райков) 3. Исследование методов анализа больших массивов текстов и искусственного интеллекта, применимых для решения поставленной задачи. (Тихомиров, Райков, Жебель, Бакаров, Меркулов) 4. Разработка методов и инструментов семантического анализа цифровых научных документов и методов автоматической тематической кластеризации научных материалов электронных коллекций для решения поставленной задачи. (Елизаров, Бакаров) 5. Разработка метода автоматического синтеза когнитивной модели выявления потребности в цифровых платформах и сквозных технологиях на основе анализа больших данных и глубокого обучения (Райков, Мерекулов); 6. Подготовка публикации по результатам исследований. (Ершова, Тихомиров, Хохлов, Елизаров, Райков, Отмахова, Меркулов, Жебель, Парадовская, Бакаров)
У коллектива имеется существенный научный задел по результатам реализации 11 грантов РФФИ и контракта с ФГБУ «Фонд содействия развитию малых форм предприятий в научно-технической сфере». За последние 10 лет разработаны технологии интеллектуального анализа и поиска неструктурированной текстовой информации на естественном языке, которые восполняют недостатки традиционных подходов к анализу текстов и позволяют эффективно решать многие задачи обработки слабо структурированной информации. Фундаментальные научные результаты:: 1. Оригинальная реляционно-ситуационная модель текста, представляющая семантику текста в виде множества объектов с семантическими ролями и связями между ними. Созданы методы реляционно-ситуационного анализа текстов, позволяющие строить реляционно-ситуационную модель на основе синтактико-семантического анализа текстов. 2. Оригинальный метод синтактико-семантического анализа текстов на естественных языках, выполняющий синтаксический и семантический анализ в одной процедуре на единых структурах данных. Разработанный метод показывает высокое качество синтактико-семантического анализа. 3. Методы анализа и индексации web-документов, а также методы, алгоритмы и программные средства автоматизированного создания коллекций web-документов на основе открытых источников Интернета. 4. Оригинальные методы компьютерной обработки больших коллекций текстов, включая методы семантического поиска, классификации, тематической кластеризации научно технических документов, поиска близких по смыслу текстов и др. Разработаны оригинальные синтаксические и семантические критерии оценки сходства текстов и многокритериальный метод оценки сходства текстов. 5. Оригинальные алгоритмы поиска информации на основе метода многокритериальной оценки сходства текстов, реализующий поиск по ключевым словам, фразовый, семантический и вопросно-ответный поиск с учётом метаданных документов. 6. Алгоритм аннотирования научных сокращений на основе семантического анализа документов.
Основным результатом выполнения проекта будут методы и алгоритмы автоматизированного выявления потребностей секторов экономики в цифровых платформах и сетевых технологиях. Для достижения этого результата, на первом этапе будет проведён анализ существующих зарубежных и отечественных научных подходов по учёту семантик при построении различных моделей. Это позволит формализовать поставленную задачу и уточнить понятийный аппарат. Кроме того, будут определены необходимые структурные условия для обеспечения замены ручной работы экспертов автоматизированной при проведении процессов, связанных с определением потребностей экономики в цифровых платформах и сетевых технологиях, а также при оценке TRL. Будет сформирован список модельных примеров отраслей экономики, требующих цифровой трансформации. Также будет разработан алгоритм квазирешения обратной задачи по выявлению потребностей секторов экономики в цифровых платформах и сетевых технологиях, а также оценке TRL, с учетом денотативных и сигнификативных семантик. По итогу будет разработан экспериментальный образец программного обеспечения, реализующий указанные методы и алгоритмы. Будет создан экспериментальный стенд для проведения исследований, а также проведены экспериментальные исследования на основе модельных примеров. В результате будет спроектирована архитектура системы, по своим возможностям сравнимой с работой экспертов по выявлению потребностей секторов экономики в цифровых платформах и сетевых технологиях, а также оценке TRL, на основе анализа больших данных.
грант РФФИ |
# | Сроки | Название |
1 | 31 июля 2018 г.-31 июля 2019 г. | Методы выявления потребностей секторов экономики в цифровых платформах и сквозных технологиях на основе анализа больших массивов текстов |
Результаты этапа: | ||
2 | 5 сентября 2019 г.-4 сентября 2020 г. | Методы выявления потребностей секторов экономики в цифровых платформах и сквозных технологиях на основе анализа больших массивов текстов |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".