![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Целью проекта является развитие методов семантического анализа текстов для выявления совокупности мнений из текстов на естественном языке на основе специализированного лексикона оценочных фреймов, созданного для русского языка. Особенностью исследования является то, что рассматриваются тексты с множественными оценками: оценками от разных субъектов по отношению к разным объектам, а также оценками автора по отношению к упомянутым сущностям, включая как явно упомянутые, так и имплицитные.
The aim of the project is to develop methods of semantic analysis to identify the variaty of opinions from texts in natural language based on the specialized vocabulary of sentiment frames created for the Russian language. A soecific feature of the study is considering texts with multiple attitudes, including various opinions from different subjects in relation to different objects, as well as the author's opinions towards to the mentioned entities; the attitudes can be expressed both explicitly and implicitly. Until recently, much attention of researchers was paid to senatiment analysis of relatively simple types of texts in terms of expressed sentiments: user reviews or short messages in social networks, such as tweets on Twitter, were considered. At the same time, there are a lot of texts containing a large number of opinions on various issues that may differ from the views of the author of the text. The interest in extracting such opinions is very great both on the part of companies and on the part of state organizations. However, the possibilities of modern technologies for automatic text processing to qualitatively extract opinions in the context of mentioning a large number of objects and subjects of opinions are very limited. In particular, the current use of machine learning for the task of extracting the variaty of opinions from articles in the socio-political field is difficult in real applications, because due to the diversity of topics discussed it is difficult to prepare a sufficient training collection. The development of better technologies for extracting opinions from a coherent text requires special research, the development of specialized approaches, as well as a system of specialized linguistic resources, the application of semantic-syntactic analysis of individual sentences, the use of coherent text analysis methods, such as coreference resolution, as well as specialized logical inference on the text.
В результате проекта: 1) Будет выработана методология создания и верификации оценочных фреймов с учетом экспертных знаний, корпусных данных и ответов носителей языка; 2) Будет создан верифицированный ресурс оценочных фреймов для русского языка RuSentiFrames, содержащий описание оценок и эффектов, связанных с предикативными словами и конструкциями; 3) Будут выработаны правила вывода оценок по сочетаниям оценочных предикативных слов как для извлечения отношений между упоминаемыми сущностями, так и для извлечения тональности отношения автора к упоминаемым сущностям; 4) Для фреймов будет создан аннотированный корпус текстовых примеров с размеченными ролями, что позволит обучать алгоритмы как для извлечения участников соответствующих ситуаций, так и для извлечения оценок и эффектов, связанных с этими участниками в рамках заданных ситуаций; 5) Будет создан вторая версия корпуса RuSentRel, которая будет содержать тексты с большим количеством оценочных отношений между упоминаемыми субъектами и выраженным (или выводимым) отношением автора к упоминаемым сущностям. В корпусе будет выполнена подокументная разметка оценочных отношений между субъектами, а также размечено отношение автора к субъектам. Кроме того, будет создана референциальная и дискурсивная разметка этого корпуса. Такой корпус позволит исследовать механизмы вывода оценок для связных текстов с учетом различных свойств связного текста, включая референциальную и тематическую связность, дискурсивную структуру текста; 6) Будут проведены эксперименты в новой задаче автоматизации разметки ролей в корпусе, которая состоит в автоматическом построении аннотированного корпуса предложений при условии уже существующих семантических фреймов с описанными семантическими ролями; 7) Будут исследованы комплексные подходы к анализу тональности связных текстов с использованием созданного лексикона оценочных фреймов, традиционных списков оценочной лексики, методов, основанных на правилах, машинного обучения, включая новые подходы к построению архитектур нейронных сетей (например, капсульные сети) и новые типы векторных представлений (Bert, Elmo и т.п.); 8) Будут опубликованы статьи, индексированные в международных базах цитирования, и представлены доклады на международных и российских конференциях; 9) Все созданные ресурсы будут опубликованы для свободного доступа.
Основная направленность проекта связана с автоматическим выявлением тональности текстов. В этой задаче больше значение имеют словари оценочных слов и выражений. Ранее участниками проекта была предложена новая модель автоматического извлечения оценочных слов заданной предметной области на основе оценочных текстов (отзывов пользователей) в данной предметной области. Модель извлечения оценочных слов из отзывов конкретной предметной области строится на основе использования нескольких текстовых коллекций, вычисленных на основе этих коллекций признаков слов, и использования нескольких алгоритмов машинного обучения. На основе предложенной модели был получен список оценочных слов в широкой области товаров и услуг (словарь ProductSentiRus). Это был первый опубликованный список оценочной лексики для русского языка. Статья, описывающая метод формирования данного списка, была принята на конференцию высшего уровня по компьютерной лингвистике COLING-2012 (Chetviorkin, Loukachevitch, 2012). В 2011-2012 под руководством Лукашевич Н.В. были организованы два тестирования систем анализа тональности в рамках Российского семинара по информационному поиску РОМИП-2011,2012 (http://www.romip.ru/ru/2012/tracks.html) (Braslavskiy et al., 2011; Loukachevitch, Chetviorkin, 2012). В 2014-2016 годах были организованы два цикла нового тестирования систем анализа тональности на русском языке SentiRuEval, направленное на тестирование систем в двух задачах: - анализ тональности отзывов по отношению к характеристикам (аспектам) в предметных областях «Рестораны» и «Автомобили» - анализ тональности сообщений Твиттера по отношению к заданному типу организаций (банки и телекоммуникационные компании). Результаты тестирования и описание подходов участников были представлены в рамках специальной сессии Международной конференции по компьютерной лингвистике и интеллектуальным технологиям Диалог-2015 и Диалог-2016 (Loukachevitch er al, 2015).
грант РФФИ |
# | Сроки | Название |
1 | 20 февраля 2020 г.-30 декабря 2020 г. | Автоматический анализ тональности текстов с множественными оценками на основе оценочных фреймов. Этап 1 |
Результаты этапа: | ||
2 | 25 марта 2021 г.-30 декабря 2021 г. | Автоматический анализ тональности текстов с множественными оценками на основе оценочных фреймов. Этап 2 |
Результаты этапа: | ||
3 | 4 апреля 2022 г.-30 декабря 2022 г. | Автоматический анализ тональности текстов с множественными оценками на основе оценочных фреймов. Этап 3 |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".