Слайд 2Введение
Opinion Mining – извлечение мнений, а не фактов:
Поиск отзывов о товарах и

услугах (как потребителями, так и производителями)
Анализ мнений для политологических, социологических и др. исследований
Другие приложения:
Рекомендательные системы
Извлечение информации
Вопросно-ответный поиск
Слайд 3Общая схема
Объект O имеет (иерархический) набор свойств fi
Каждое свойство может выражаться набором

слов/словосочетаний wi - синонимов
Субъект (opinion holder) высказывает свое мнение об O или о каких-то его свойствах
Слайд 4Основные задачи
На уровне документа:
Классификация тональности
Классы: позитивный, негативный, нейтральный
Предполагается, что каждый документ содержит

мнение только об одном объекте и только одного субьекта
На уровне предложения:
Идентификация предложений, содержащих мнения
Определение тональности предложения
Предполагается, что каждое предложение содержит только одно мнение
На уровне свойств:
Определение свойств, которые оценивает субъект
Сгруппировать синонимы (если они неизвестны)
Идентифицировать тональность оценки
Слайд 5Классификация документов
Классификация – классическая задача машинного обучения
Различия с тематической классификацией только в

используемых свойствах
Наличие терминов и их частота (часто взвешенная)
Части речи – для определения тональности принципиально важны прилагательные и наречия
Оценочные слова и словосочетания (словарь или более сложная структура типа WordNet)
Синтаксические зависимости – позволяют делать предположения о семантических отношениях между оценочными и тематическими словами
Отрицания – могут изменить мнение на противоположное
Слайд 6Категоризация документов
Список оценочной лексики (прилагательные и наречия)
Для всех упоминаний объекта и/или его

свойств рядом с оценочной лексикой, подсчитывается коэффициент взаимной информации:
Итоговая оценка для данного упоминания:
Оценка суммируется для документа в целом
Слайд 7Уровень документа и предложения
Документ может быть очень противоречивым
Требуется переход на уровень предложений
Классификация

предложений:
Объективные/субъективные
И затем негативные/позитивные
Но: позитивная оценка объекта не означает позитивной оценки всех его свойств (и vice versa)
Предложения могут быть очень сложными – нужно переходить на уровень отдельных свойств
Слайд 8Оценка свойств
Идентификация свойств
Группировка синонимов
Определение оценок
Подходы очень похожи на Information Extraction:
(Named) Entity Recognition

+ установление фактов (оценок)
Словари, образцы, машинное обучение
Слайд 9Сравнения
Два вида оценок:
X хороший (плохой, тяжелый, легкий, звонкий…)
X лучше (хуже, выше, ниже,

толще, мощнее…) чем Y
Требуют более детальной обработки
Типы сравнений:
Градации
A лучше B
А такой же как B
A лучше всех
Сравнения по свойствам
У A есть характеристики, которых нет у B
У А одни свойства, у В другие
А похож на В не считая некоторых свойств
Слайд 11Построение словарей
Вручную
На основе существующих словарей и тезаурусов (WordNet)
Автоматически
Bootstrapping
Она умная и красивая vs.

Она умная, но вредная
Возможно построение доменно-ориентированных словарей