Слайд 2Введение
Opinion Mining – извлечение мнений, а не фактов:
Поиск отзывов о товарах и
![Введение Opinion Mining – извлечение мнений, а не фактов: Поиск отзывов о](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/389991/slide-1.jpg)
услугах (как потребителями, так и производителями)
Анализ мнений для политологических, социологических и др. исследований
Другие приложения:
Рекомендательные системы
Извлечение информации
Вопросно-ответный поиск
Слайд 3Общая схема
Объект O имеет (иерархический) набор свойств fi
Каждое свойство может выражаться набором
![Общая схема Объект O имеет (иерархический) набор свойств fi Каждое свойство может](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/389991/slide-2.jpg)
слов/словосочетаний wi - синонимов
Субъект (opinion holder) высказывает свое мнение об O или о каких-то его свойствах
Слайд 4Основные задачи
На уровне документа:
Классификация тональности
Классы: позитивный, негативный, нейтральный
Предполагается, что каждый документ содержит
![Основные задачи На уровне документа: Классификация тональности Классы: позитивный, негативный, нейтральный Предполагается,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/389991/slide-3.jpg)
мнение только об одном объекте и только одного субьекта
На уровне предложения:
Идентификация предложений, содержащих мнения
Определение тональности предложения
Предполагается, что каждое предложение содержит только одно мнение
На уровне свойств:
Определение свойств, которые оценивает субъект
Сгруппировать синонимы (если они неизвестны)
Идентифицировать тональность оценки
Слайд 5Классификация документов
Классификация – классическая задача машинного обучения
Различия с тематической классификацией только в
![Классификация документов Классификация – классическая задача машинного обучения Различия с тематической классификацией](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/389991/slide-4.jpg)
используемых свойствах
Наличие терминов и их частота (часто взвешенная)
Части речи – для определения тональности принципиально важны прилагательные и наречия
Оценочные слова и словосочетания (словарь или более сложная структура типа WordNet)
Синтаксические зависимости – позволяют делать предположения о семантических отношениях между оценочными и тематическими словами
Отрицания – могут изменить мнение на противоположное
Слайд 6Категоризация документов
Список оценочной лексики (прилагательные и наречия)
Для всех упоминаний объекта и/или его
![Категоризация документов Список оценочной лексики (прилагательные и наречия) Для всех упоминаний объекта](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/389991/slide-5.jpg)
свойств рядом с оценочной лексикой, подсчитывается коэффициент взаимной информации:
Итоговая оценка для данного упоминания:
Оценка суммируется для документа в целом
Слайд 7Уровень документа и предложения
Документ может быть очень противоречивым
Требуется переход на уровень предложений
Классификация
![Уровень документа и предложения Документ может быть очень противоречивым Требуется переход на](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/389991/slide-6.jpg)
предложений:
Объективные/субъективные
И затем негативные/позитивные
Но: позитивная оценка объекта не означает позитивной оценки всех его свойств (и vice versa)
Предложения могут быть очень сложными – нужно переходить на уровень отдельных свойств
Слайд 8Оценка свойств
Идентификация свойств
Группировка синонимов
Определение оценок
Подходы очень похожи на Information Extraction:
(Named) Entity Recognition
![Оценка свойств Идентификация свойств Группировка синонимов Определение оценок Подходы очень похожи на](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/389991/slide-7.jpg)
+ установление фактов (оценок)
Словари, образцы, машинное обучение
Слайд 9Сравнения
Два вида оценок:
X хороший (плохой, тяжелый, легкий, звонкий…)
X лучше (хуже, выше, ниже,
![Сравнения Два вида оценок: X хороший (плохой, тяжелый, легкий, звонкий…) X лучше](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/389991/slide-8.jpg)
толще, мощнее…) чем Y
Требуют более детальной обработки
Типы сравнений:
Градации
A лучше B
А такой же как B
A лучше всех
Сравнения по свойствам
У A есть характеристики, которых нет у B
У А одни свойства, у В другие
А похож на В не считая некоторых свойств
Слайд 11Построение словарей
Вручную
На основе существующих словарей и тезаурусов (WordNet)
Автоматически
Bootstrapping
Она умная и красивая vs.
![Построение словарей Вручную На основе существующих словарей и тезаурусов (WordNet) Автоматически Bootstrapping](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/389991/slide-10.jpg)
Она умная, но вредная
Возможно построение доменно-ориентированных словарей