Методы автоматической обработки тем сообщений в потоках новостных сообщений

Содержание

Слайд 2

Постановка задачи

Объект: потоки новостных сообщений
Цель: автоматическое выделение и представление актуальных тем в

Постановка задачи Объект: потоки новостных сообщений Цель: автоматическое выделение и представление актуальных тем в потоке новостей.
потоке новостей.

Слайд 3

Актуальность задачи

Актуальность задачи обосновывается:
С одной стороны, потребностью получать в реальном масштабе времени

Актуальность задачи Актуальность задачи обосновывается: С одной стороны, потребностью получать в реальном
наиболее полные и точные сведения об окружающей обстановке.
С другой стороны, идет постоянный рост объемов доступной текстовой информации, которую уже невозможно обрабатывать ручными методами.

Слайд 4

Отличие от существующих систем

Многие существующие системы обработки текстовых данных способны работать с

Отличие от существующих систем Многие существующие системы обработки текстовых данных способны работать
уже известными, заранее определенными понятиями, такими как поисковый запрос и образ рубрики.
Но эти системы не способны в полной мере оперировать с новыми неизвестными понятиями, такими, как только что произошедшее событие.

Слайд 5

Типичный день аналитика:


Обойти все интересующие новостные сайты
Выделить для себя самые актуальные темы
Создать

Типичный день аналитика: Обойти все интересующие новостные сайты Выделить для себя самые
дайджест актуальных новостей

Слайд 6

Используемые понятия

Сообщение - единичный текстовый документ, поступающий из некоторого источника.
Тема - «тема

Используемые понятия Сообщение - единичный текстовый документ, поступающий из некоторого источника. Тема
- предмет описания, изображения, исследования, выступления, дискуссии». В новостных системах тема описывается множеством сообщений, связанных между собой общим событием.

Слайд 7

Модель темы

Тема – абстрактное понятие, описываемое однородной группой похожих, в определенном смысле,

Модель темы Тема – абстрактное понятие, описываемое однородной группой похожих, в определенном смысле, сообщений.
сообщений.

Слайд 8

Ограничение автоматизированных систем

Любая автоматизированная система не способна однозначно выделить темы, она может

Ограничение автоматизированных систем Любая автоматизированная система не способна однозначно выделить темы, она
лишь описать ее множеством сообщений, сама тема складывается в голове у пользователя системы после ознакомления с данным множеством сообщений.

Слайд 9

Методы автоматической обработки тем

Выделение тем
Ранжирование тем
Представление тем

Методы автоматической обработки тем Выделение тем Ранжирование тем Представление тем

Слайд 10

Методы автоматической обработки тем

Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений

Слайд 11

Методы автоматической обработки тем

Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений

Слайд 12

Кластеризация текстовых сообщений

Целью кластеризации сообщений является автоматическое выявление групп лексически похожих сообщений

Кластеризация текстовых сообщений Целью кластеризации сообщений является автоматическое выявление групп лексически похожих
среди заданного фиксированного множества сообщений.

Слайд 13

Формальная модель текста

Тексты представляются векторами в элементарной теоретико-множественной модели. В качестве информационных

Формальная модель текста Тексты представляются векторами в элементарной теоретико-множественной модели. В качестве
признаков выбраны простые термины, приведенные к нормальной форме с помощью морфоанализа. Для снижения размерности используется селекция и трансформация признаков.

Слайд 14

Использование структуры текста

Авторы сообщений вносят дополнительную смысловую структуру в текст, разбивая его

Использование структуры текста Авторы сообщений вносят дополнительную смысловую структуру в текст, разбивая
на абзацы – части текста, характеризующиеся единством и относительной законченностью содержания.
Данное разбиение позволяет выделить отдельные мысли в тексте и использовать это для улучшения кластерного анализа.

Слайд 15

Метод кластерного анализа текстов с разбиением на абзацы

Выделение абзацев
Кластерный анализ абзацев
Переход от

Метод кластерного анализа текстов с разбиением на абзацы Выделение абзацев Кластерный анализ
групп абзацев к группам документов

Слайд 16

Эффективность кластерного анализа текстов с разбиением на абзацы


Применение разбиения на абзацы позволяет

Эффективность кластерного анализа текстов с разбиением на абзацы Применение разбиения на абзацы
уменьшить относительную ошибку кластеризации в 2 раза.

Слайд 17

Методы автоматической обработки тем

Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений

Слайд 18

Понятие «актуальности»

Согласно БСЭ, «Актуальность - важность, значительность чего-либо в настоящее время, современность,

Понятие «актуальности» Согласно БСЭ, «Актуальность - важность, значительность чего-либо в настоящее время, современность, злободневность».
злободневность».

Слайд 19

Понятие «актуальности темы»

Тема является актуальной, если она обладает следующими признаками:
1. Тема -

Понятие «актуальности темы» Тема является актуальной, если она обладает следующими признаками: 1.
новая по времени, то есть описывается свежими сообщениями.
2. Тема - важная, то есть описывается сообщениями, отражающими интерес пользователей и источников к данной теме.

Слайд 20

Основные факторы актуальности тем

Время
Важность
для пользователя
для источников

Основные факторы актуальности тем Время Важность для пользователя для источников

Слайд 21

Основные факторы актуальности тем

Время
Важность
для пользователя
для источников

Основные факторы актуальности тем Время Важность для пользователя для источников

Слайд 22

Ранжирование тем по времени

Сначала вычисляется среднее или последнее время сообщений в группе,

Ранжирование тем по времени Сначала вычисляется среднее или последнее время сообщений в
затем время нужно подставить в функцию старения s(t).

Слайд 23

Вид функции старения

Современность, s

Прошедшее время, t

Вид функции старения Современность, s Прошедшее время, t

Слайд 24

Примеры функций современности

Примеры функций современности

Слайд 25

Основные факторы актуальности тем

Время
Важность
для пользователя
для источников

Основные факторы актуальности тем Время Важность для пользователя для источников

Слайд 26

Ранжирование тем по важности для пользователя

Важность для пользователя мы можем рассчитать

Ранжирование тем по важности для пользователя Важность для пользователя мы можем рассчитать
по количеству чтений сообщений из данной темы. Чем больше сообщений, тем более тема интересна пользователям.

Слайд 27

Группы пользователей

При большом количестве пользователей имеет смысл разделение пользователей на группы по

Группы пользователей При большом количестве пользователей имеет смысл разделение пользователей на группы
интересам.
Пользователь будет относиться к одной из групп, и ранг тем по важности для пользователя будет учитывать интересы группы.

Слайд 28

Ранг по важности для пользователя с учетом групп

Ранг темы по важности для

Ранг по важности для пользователя с учетом групп Ранг темы по важности
пользователя с учетом групп будет равен:
где Nread0, Nread1 – число чтений пользователей, соответственно, из «чужих» групп и «своей» группы, a0, a1 – коэффициент, соответственно, «чужих» и «своей» группы.

Слайд 29

Преимущества применения групп пользователей

Ранг тем будет динамически изменяться в зависимости от группы

Преимущества применения групп пользователей Ранг тем будет динамически изменяться в зависимости от
пользователя, и ранг будет выше у тех сообщений, которые больше интересны пользователям «своей» группы.

Слайд 30

Основные факторы актуальности тем

Время
Важность
для пользователя
для источников

Основные факторы актуальности тем Время Важность для пользователя для источников

Слайд 31

Ранжирование событий по важности для СМИ

Количество сообщений в группе отображает общий интерес

Ранжирование событий по важности для СМИ Количество сообщений в группе отображает общий
новостных источников к данному событию. Чем больше пишут о данном событии, тем более оно интересно.

Слайд 32

Ранжирование событий по важности для СМИ

Возможен более сложный вариант учета сообщений от

Ранжирование событий по важности для СМИ Возможен более сложный вариант учета сообщений
источников: суммирование количества сообщений от данного источника умноженных на вес источника. Этим способом мы сможем отбросить излишние цитирования и сомнительные новости.

Слайд 33

Ранжирование событий по важности для СМИ

Остается неучтенным вариант, когда один источник, пусть

Ранжирование событий по важности для СМИ Остается неучтенным вариант, когда один источник,
даже с малым весом, будет посылать большое количество сомнительных новостей на одну тему, в этом случае данная тематика подняться выше других, что неправильно.
Следует учитывать и долю источников, пишущих о данной теме, чем больше, тем лучше.

Слайд 34

Ранжирование событий по важности для СМИ

Формула ранга важности для СМИ будет иметь

Ранжирование событий по важности для СМИ Формула ранга важности для СМИ будет
следующий вид:
, где i – число источников,
k- число источников, пишущих на данную тему,
vi - вес источника,
ni - количество сообщений из данного источника на данную тему.

Слайд 35

Формула актуальности темы

Rfull=Ffull(Rtime, Ruser, Rsmi)

Формула актуальности темы Rfull=Ffull(Rtime, Ruser, Rsmi)

Слайд 36

Простейшая формула актуальности темы

, где atime, auser, asmi – соответствующие коэффициенты рангов

Простейшая формула актуальности темы , где atime, auser, asmi – соответствующие коэффициенты
по времени, важности, задаваемые пользователем.

Слайд 37

Формула актуальности темы

Более гибкий и сложный вариант – многокритериальное ранжирование.

Формула актуальности темы Более гибкий и сложный вариант – многокритериальное ранжирование.

Слайд 38

Методы автоматической обработки тем

Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений

Слайд 39

Аннотирование тем

Предлагается использование результатов кластерного анализа с разбиением на абзацы для реферирования

Аннотирование тем Предлагается использование результатов кластерного анализа с разбиением на абзацы для
полученных тем. Выделяются абзацы, ближайшие к центру кластера, содержание каждого такого абзаца будет наиболее близко к теме соответствующего кластера.
Полученные абзацы представляют собой законченные смысловые блоки текста, наиболее близкие к данной теме, то есть реферат темы.

Слайд 40

Методы автоматической обработки тем

Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений

Слайд 41

Аннотирование сообщений

Для каждого сообщения в теме (кластере) можно найти один или несколько

Аннотирование сообщений Для каждого сообщения в теме (кластере) можно найти один или
абзацев, которые будет наиболее близки к центру данного кластера.
Данные абзацы будет являться выдержкой из текста, которая наиболее близка по содержимому к выбранной теме, то есть кратким описанием сообщения как элемента темы.

Слайд 42

Наглядное представление метода аннотирования

Кластер, описывающий тему

Абзацы одного сообщения

Центральный абзац кластера

Наглядное представление метода аннотирования Кластер, описывающий тему Абзацы одного сообщения Центральный абзац кластера

Слайд 43

Методы автоматической обработки тем

Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений

Слайд 44

Пример аннотирования

ПО ДАННЫМ ПАРАЛЛЕЛЬНОГО ПОДСЧЕТА 67,3%% БЮЛЛЕТЕНЕЙ В ШТАБЕ ЯНУКОВИЧА, ЗА ПРЕМЬЕРА

Пример аннотирования ПО ДАННЫМ ПАРАЛЛЕЛЬНОГО ПОДСЧЕТА 67,3%% БЮЛЛЕТЕНЕЙ В ШТАБЕ ЯНУКОВИЧА, ЗА
ПРОГОЛОСОВАЛИ 50,54
Как заявила журналистам представитель штаба Януковича Раиса Богатырева, после обработки 67,3%% бюллетеней центром параллельного подсчета голосов при штабе за Януковича проголосовали 50,54%%, за Ющенко - 45,53%%.
НАБЛЮДАТЕЛИ ОТ СНГ НЕ ЗАФИКСИРОВАЛИ СЕРЬЕЗНЫХ НАРУШЕНИЙ НА ВЫБОРАХ ПРЕЗИДЕНТА УКРАИНЫ
В частности, в Одессе, Львове, Киеве наблюдалось несвоевременное открытие избирательных участков, уточнил собеседник агентства. Также, по его словам, во Львове, Херсонской области и Луцке на отдельных избирательных участках в кабины для голосования заходили сразу несколько человек.

Слайд 45

Пример аннотирования системы «Яндекс Новости»

Украина: взлом сейфа и гонки по вертикали 11:21

Пример аннотирования системы «Яндекс Новости» Украина: взлом сейфа и гонки по вертикали
Правда.ru
Со всех уголков Украины продолжает поступать информация о нарушениях и ...
... списков и бюллетеней только в 14 часов в воскресенье, сообщает МВД Украины.
Оппозиция на улице, в ЦИКе перерыв 11:05 РБК
ЦИК Украины объявил перерыв в подсчете голосов до 15 часов.
... обработки Центральной избирательной комиссией Украины 75,26% протоколов стало ...

Слайд 46

Ранжирование сообщений в выбранном событии

Ранжирование сообщений по времени
Ранжирование сообщений по содержанию

Ранжирование сообщений в выбранном событии Ранжирование сообщений по времени Ранжирование сообщений по содержанию

Слайд 47

Ранжирование сообщений по времени

Использует подобную функцию, как и в случае ранжирования

Ранжирование сообщений по времени Использует подобную функцию, как и в случае ранжирования событий.
событий.

Слайд 48

Ранжирование сообщений по содержанию

Близость сообщения к центру группы.
Процент абзацев сообщения,

Ранжирование сообщений по содержанию Близость сообщения к центру группы. Процент абзацев сообщения, наиболее близких тематике события.
наиболее близких тематике события.

Слайд 49

Формула ранга сообщения

Подход к вычислению итогового ранга аналогичен подходу вычисления актуальности темы.
Простой

Формула ранга сообщения Подход к вычислению итогового ранга аналогичен подходу вычисления актуальности
случай – произведение рангов,
Сложный случай – многокритериальное ранжирование.

Слайд 50

Заключение

Рассмотренная задача автоматического определения актуальности сообщения отличается от уже существующих задач аналитической

Заключение Рассмотренная задача автоматического определения актуальности сообщения отличается от уже существующих задач
обработки текстов более широким подходом к анализу новых сообщений.
Предлагается анализировать не только содержимое текстов, но большое число других факторов, что позволяет в итоге более точно ранжировать сообщения по степени актуальности их для аналитика, обращать внимание на наиболее важные и свежие сообщения и пропускать ненужные.

Слайд 51

Новизна исследования

Разработаны:
Метод кластерного анализа текстовых сообщений с использованием структуры текста
Метод ранжирования тем

Новизна исследования Разработаны: Метод кластерного анализа текстовых сообщений с использованием структуры текста
сообщений
Метод наглядного представления тем и сообщений

Слайд 53

Подсистема предварительной обработки

Лингвистическая обработка, формирование векторного представления.
Формирование паспорта сообщения.

Подсистема предварительной обработки Лингвистическая обработка, формирование векторного представления. Формирование паспорта сообщения.

Слайд 55

Подсистема хранения

Хранение данных системы,
таких как тексты и паспорта сообщений, лексический словарь,

Подсистема хранения Хранение данных системы, таких как тексты и паспорта сообщений, лексический
статистика запросов пользователей и прочая информация.

Слайд 56

Подсистема выделения тем и вычисления актуальности

Выделение тем
Подготовка кластерного анализа
Кластерный анализ абзацев
Переход

Подсистема выделения тем и вычисления актуальности Выделение тем Подготовка кластерного анализа Кластерный
от групп абзацев к группам сообщений
Вычисление актуальности

Слайд 57

Подсистема визуализации

Получение данных
Дополнительная обработка данных
Выдача данных пользователю и реакция на запросы

Подсистема визуализации Получение данных Дополнительная обработка данных Выдача данных пользователю и реакция на запросы
Имя файла: Методы-автоматической-обработки-тем-сообщений-в-потоках-новостных-сообщений.pptx
Количество просмотров: 130
Количество скачиваний: 0