Анализ тональности сообщений

Содержание

Слайд 2

Введение

Opinion Mining – извлечение мнений, а не фактов:
Поиск отзывов о товарах и

Введение Opinion Mining – извлечение мнений, а не фактов: Поиск отзывов о
услугах (как потребителями, так и производителями)
Анализ мнений для политологических, социологических и др. исследований
Другие приложения:
Рекомендательные системы
Извлечение информации
Вопросно-ответный поиск

Слайд 3

Общая схема

Объект O имеет (иерархический) набор свойств fi
Каждое свойство может выражаться набором

Общая схема Объект O имеет (иерархический) набор свойств fi Каждое свойство может
слов/словосочетаний wi - синонимов
Субъект (opinion holder) высказывает свое мнение об O или о каких-то его свойствах

Слайд 4

Основные задачи

На уровне документа:
Классификация тональности
Классы: позитивный, негативный, нейтральный
Предполагается, что каждый документ содержит

Основные задачи На уровне документа: Классификация тональности Классы: позитивный, негативный, нейтральный Предполагается,
мнение только об одном объекте и только одного субьекта
На уровне предложения:
Идентификация предложений, содержащих мнения
Определение тональности предложения
Предполагается, что каждое предложение содержит только одно мнение
На уровне свойств:
Определение свойств, которые оценивает субъект
Сгруппировать синонимы (если они неизвестны)
Идентифицировать тональность оценки

Слайд 5

Классификация документов

Классификация – классическая задача машинного обучения
Различия с тематической классификацией только в

Классификация документов Классификация – классическая задача машинного обучения Различия с тематической классификацией
используемых свойствах
Наличие терминов и их частота (часто взвешенная)
Части речи – для определения тональности принципиально важны прилагательные и наречия
Оценочные слова и словосочетания (словарь или более сложная структура типа WordNet)
Синтаксические зависимости – позволяют делать предположения о семантических отношениях между оценочными и тематическими словами
Отрицания – могут изменить мнение на противоположное

Слайд 6

Категоризация документов

Список оценочной лексики (прилагательные и наречия)
Для всех упоминаний объекта и/или его

Категоризация документов Список оценочной лексики (прилагательные и наречия) Для всех упоминаний объекта
свойств рядом с оценочной лексикой, подсчитывается коэффициент взаимной информации:
Итоговая оценка для данного упоминания:
Оценка суммируется для документа в целом

Слайд 7

Уровень документа и предложения

Документ может быть очень противоречивым
Требуется переход на уровень предложений
Классификация

Уровень документа и предложения Документ может быть очень противоречивым Требуется переход на
предложений:
Объективные/субъективные
И затем негативные/позитивные
Но: позитивная оценка объекта не означает позитивной оценки всех его свойств (и vice versa)
Предложения могут быть очень сложными – нужно переходить на уровень отдельных свойств

Слайд 8

Оценка свойств

Идентификация свойств
Группировка синонимов
Определение оценок
Подходы очень похожи на Information Extraction:
(Named) Entity Recognition

Оценка свойств Идентификация свойств Группировка синонимов Определение оценок Подходы очень похожи на
+ установление фактов (оценок)
Словари, образцы, машинное обучение

Слайд 9

Сравнения

Два вида оценок:
X хороший (плохой, тяжелый, легкий, звонкий…)
X лучше (хуже, выше, ниже,

Сравнения Два вида оценок: X хороший (плохой, тяжелый, легкий, звонкий…) X лучше
толще, мощнее…) чем Y
Требуют более детальной обработки
Типы сравнений:
Градации
A лучше B
А такой же как B
A лучше всех
Сравнения по свойствам
У A есть характеристики, которых нет у B
У А одни свойства, у В другие
А похож на В не считая некоторых свойств

Слайд 10

Примеры сравнений

Примеры сравнений

Слайд 11

Построение словарей

Вручную
На основе существующих словарей и тезаурусов (WordNet)
Автоматически
Bootstrapping
Она умная и красивая vs.

Построение словарей Вручную На основе существующих словарей и тезаурусов (WordNet) Автоматически Bootstrapping
Она умная, но вредная
Возможно построение доменно-ориентированных словарей
Имя файла: Анализ-тональности-сообщений.pptx
Количество просмотров: 128
Количество скачиваний: 0