![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Данный проект направлен на анализ тональности текстов (новостей, газетной аналитики, сообщений из Твиттера) по отношению к заданному объекту (компании, персоналии, явлению), т.е. выявление в документе эмоциональной оценки объектов автором, а также оценку благоприятности/неблагоприятности сообщаемых фактов для заданного объекта. Предполагается исследовать такие типы текстов (новости, аналитика, сообщения в социальных сетях), анализ тональности которых осложнен следующими факторами (в противоположность ранее часто исследуемым отзывам пользователей): - для каждого конкретного текста неизвестно, дается ли какая-то оценочная информация в тексте, если да, то по отношению к какому именно объекту, - для сверхкоротких сообщений типа Твиттера часто сложно установить, к какому именно объекту относится данное сообщение, - значительно сложнее создать обучающую выборку для применения методов машинного обучения - в полнотекстовых документах типа новостей и аналитики еще большую значимость приобретает учет структуры связного текста, а именно лексической, референциальной связности, дискурсивных маркеров.
По результатам 2014 г. В рамках проекта исследовались методы и подходы автоматического анализа текстов по отношению к заданному объекту: 1) Организовано новое открытое тестирование систем автоматического анализа тональности текстов, т.е. определения отношения автора текста к объектам, обсуждаемым в тексте, SentiRuEval. В задачу участников тестирования входит автоматическое определение тональности по отношению к заданному объекту и его свойствам (аспектам). Тестирование проводится на двух типах данных: - твиты из Твиттера о банках и телекоммуникационных компаниях - отзывы пользователей о ресторанах и автомобилях. По отзывам участники должны выполнить на выбор несколько задач, включая - автоматическое нахождение аспектных терминов в тексте, - определение тональности аспектных терминов в тексте, - отнесение аспектных терминов к обобщенной аспектной категории (например, еда, обслуживание для ресторанов) - определение тональности аспектных категорий по отзыву в целом. На текущий момент участникам розданы обучающие данные, тестовые данные будут распространяться в середине января, результаты тестирования появятся в начале февраля. Планируется очное обсуждение результатов тестирования на одной из секций конференции по компьютерной лингвистике Диалог-2015. 2) Продолжались исследования по извлечению оценочной лексики из разных типов текстов: - оценочных слов из постов Твиттера, - оценочных слов из отзывов на основе комбинирования двух типов информации: собственно коллекции отзывов и вспомогательных коллекций и общезначимого тезауруса русского языка РуТез, - слов с оценочными ассоциациями (коннотациями) из большой коллекции новостей. 3) Была проведена экспертная разметка пар "понятие тезауруса - текстовый вход тезауруса" по тональности и по типу способа выражения тональности (собственно оценка, эмоция, фактическая информация). Использовалась опубликованная версия тезауруса РуТез.
грант РФФИ |
# | Сроки | Название |
1 | 1 апреля 2014 г.-31 декабря 2014 г. | Исследование методов автоматического анализа тональности текстов по отношению к заданному объекту |
Результаты этапа: Объявлено открытое тестирование систем автоматического анализа тональности текстов на русском языке |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".