Слайд 2Постановка задачи
Объект: потоки новостных сообщений
Цель: автоматическое выделение и представление актуальных тем в
![Постановка задачи Объект: потоки новостных сообщений Цель: автоматическое выделение и представление актуальных тем в потоке новостей.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-1.jpg)
потоке новостей.
Слайд 3Актуальность задачи
Актуальность задачи обосновывается:
С одной стороны, потребностью получать в реальном масштабе времени
![Актуальность задачи Актуальность задачи обосновывается: С одной стороны, потребностью получать в реальном](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-2.jpg)
наиболее полные и точные сведения об окружающей обстановке.
С другой стороны, идет постоянный рост объемов доступной текстовой информации, которую уже невозможно обрабатывать ручными методами.
Слайд 4Отличие от существующих систем
Многие существующие системы обработки текстовых данных способны работать с
![Отличие от существующих систем Многие существующие системы обработки текстовых данных способны работать](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-3.jpg)
уже известными, заранее определенными понятиями, такими как поисковый запрос и образ рубрики.
Но эти системы не способны в полной мере оперировать с новыми неизвестными понятиями, такими, как только что произошедшее событие.
Слайд 5Типичный день аналитика:
Обойти все интересующие новостные сайты
Выделить для себя самые актуальные темы
Создать
![Типичный день аналитика: Обойти все интересующие новостные сайты Выделить для себя самые](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-4.jpg)
дайджест актуальных новостей
Слайд 6Используемые понятия
Сообщение - единичный текстовый документ, поступающий из некоторого источника.
Тема - «тема
![Используемые понятия Сообщение - единичный текстовый документ, поступающий из некоторого источника. Тема](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-5.jpg)
- предмет описания, изображения, исследования, выступления, дискуссии». В новостных системах тема описывается множеством сообщений, связанных между собой общим событием.
Слайд 7Модель темы
Тема – абстрактное понятие, описываемое однородной группой похожих, в определенном смысле,
![Модель темы Тема – абстрактное понятие, описываемое однородной группой похожих, в определенном смысле, сообщений.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-6.jpg)
сообщений.
Слайд 8Ограничение автоматизированных систем
Любая автоматизированная система не способна однозначно выделить темы, она может
![Ограничение автоматизированных систем Любая автоматизированная система не способна однозначно выделить темы, она](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-7.jpg)
лишь описать ее множеством сообщений, сама тема складывается в голове у пользователя системы после ознакомления с данным множеством сообщений.
Слайд 9Методы автоматической обработки тем
Выделение тем
Ранжирование тем
Представление тем
![Методы автоматической обработки тем Выделение тем Ранжирование тем Представление тем](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-8.jpg)
Слайд 10Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
![Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-9.jpg)
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 11Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
![Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-10.jpg)
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 12Кластеризация текстовых сообщений
Целью кластеризации сообщений является автоматическое выявление групп лексически похожих сообщений
![Кластеризация текстовых сообщений Целью кластеризации сообщений является автоматическое выявление групп лексически похожих](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-11.jpg)
среди заданного фиксированного множества сообщений.
Слайд 13Формальная модель текста
Тексты представляются векторами в элементарной теоретико-множественной модели. В качестве информационных
![Формальная модель текста Тексты представляются векторами в элементарной теоретико-множественной модели. В качестве](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-12.jpg)
признаков выбраны простые термины, приведенные к нормальной форме с помощью морфоанализа. Для снижения размерности используется селекция и трансформация признаков.
Слайд 14Использование структуры текста
Авторы сообщений вносят дополнительную смысловую структуру в текст, разбивая его
![Использование структуры текста Авторы сообщений вносят дополнительную смысловую структуру в текст, разбивая](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-13.jpg)
на абзацы – части текста, характеризующиеся единством и относительной законченностью содержания.
Данное разбиение позволяет выделить отдельные мысли в тексте и использовать это для улучшения кластерного анализа.
Слайд 15Метод кластерного анализа текстов с разбиением на абзацы
Выделение абзацев
Кластерный анализ абзацев
Переход от
![Метод кластерного анализа текстов с разбиением на абзацы Выделение абзацев Кластерный анализ](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-14.jpg)
групп абзацев к группам документов
Слайд 16Эффективность кластерного анализа текстов
с разбиением на абзацы
Применение разбиения на абзацы позволяет
![Эффективность кластерного анализа текстов с разбиением на абзацы Применение разбиения на абзацы](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-15.jpg)
уменьшить относительную ошибку кластеризации в 2 раза.
Слайд 17Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
![Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-16.jpg)
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 18Понятие «актуальности»
Согласно БСЭ, «Актуальность - важность, значительность чего-либо в настоящее время, современность,
![Понятие «актуальности» Согласно БСЭ, «Актуальность - важность, значительность чего-либо в настоящее время, современность, злободневность».](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-17.jpg)
злободневность».
Слайд 19Понятие «актуальности темы»
Тема является актуальной, если она обладает следующими признаками:
1. Тема -
![Понятие «актуальности темы» Тема является актуальной, если она обладает следующими признаками: 1.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-18.jpg)
новая по времени, то есть описывается свежими сообщениями.
2. Тема - важная, то есть описывается сообщениями, отражающими интерес пользователей и источников к данной теме.
Слайд 20Основные факторы
актуальности тем
Время
Важность
для пользователя
для источников
![Основные факторы актуальности тем Время Важность для пользователя для источников](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-19.jpg)
Слайд 21Основные факторы
актуальности тем
Время
Важность
для пользователя
для источников
![Основные факторы актуальности тем Время Важность для пользователя для источников](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-20.jpg)
Слайд 22Ранжирование тем по времени
Сначала вычисляется среднее или последнее время сообщений в группе,
![Ранжирование тем по времени Сначала вычисляется среднее или последнее время сообщений в](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-21.jpg)
затем время нужно подставить в функцию старения s(t).
Слайд 23Вид функции старения
Современность, s
Прошедшее время, t
![Вид функции старения Современность, s Прошедшее время, t](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-22.jpg)
Слайд 25Основные факторы
актуальности тем
Время
Важность
для пользователя
для источников
![Основные факторы актуальности тем Время Важность для пользователя для источников](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-24.jpg)
Слайд 26Ранжирование тем по важности для пользователя
Важность для пользователя мы можем рассчитать
![Ранжирование тем по важности для пользователя Важность для пользователя мы можем рассчитать](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-25.jpg)
по количеству чтений сообщений из данной темы. Чем больше сообщений, тем более тема интересна пользователям.
Слайд 27Группы пользователей
При большом количестве пользователей имеет смысл разделение пользователей на группы по
![Группы пользователей При большом количестве пользователей имеет смысл разделение пользователей на группы](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-26.jpg)
интересам.
Пользователь будет относиться к одной из групп, и ранг тем по важности для пользователя будет учитывать интересы группы.
Слайд 28Ранг по важности для пользователя с учетом групп
Ранг темы по важности для
![Ранг по важности для пользователя с учетом групп Ранг темы по важности](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-27.jpg)
пользователя с учетом групп будет равен:
где Nread0, Nread1 – число чтений пользователей, соответственно, из «чужих» групп и «своей» группы, a0, a1 – коэффициент, соответственно, «чужих» и «своей» группы.
Слайд 29Преимущества применения групп пользователей
Ранг тем будет динамически изменяться в зависимости от группы
![Преимущества применения групп пользователей Ранг тем будет динамически изменяться в зависимости от](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-28.jpg)
пользователя, и ранг будет выше у тех сообщений, которые больше интересны пользователям «своей» группы.
Слайд 30Основные факторы
актуальности тем
Время
Важность
для пользователя
для источников
![Основные факторы актуальности тем Время Важность для пользователя для источников](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-29.jpg)
Слайд 31Ранжирование событий по важности для СМИ
Количество сообщений в группе отображает общий интерес
![Ранжирование событий по важности для СМИ Количество сообщений в группе отображает общий](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-30.jpg)
новостных источников к данному событию. Чем больше пишут о данном событии, тем более оно интересно.
Слайд 32Ранжирование событий по важности для СМИ
Возможен более сложный вариант учета сообщений от
![Ранжирование событий по важности для СМИ Возможен более сложный вариант учета сообщений](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-31.jpg)
источников: суммирование количества сообщений от данного источника умноженных на вес источника. Этим способом мы сможем отбросить излишние цитирования и сомнительные новости.
Слайд 33Ранжирование событий по важности для СМИ
Остается неучтенным вариант, когда один источник, пусть
![Ранжирование событий по важности для СМИ Остается неучтенным вариант, когда один источник,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-32.jpg)
даже с малым весом, будет посылать большое количество сомнительных новостей на одну тему, в этом случае данная тематика подняться выше других, что неправильно.
Следует учитывать и долю источников, пишущих о данной теме, чем больше, тем лучше.
Слайд 34Ранжирование событий по важности для СМИ
Формула ранга важности для СМИ будет иметь
![Ранжирование событий по важности для СМИ Формула ранга важности для СМИ будет](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-33.jpg)
следующий вид:
, где i – число источников,
k- число источников, пишущих на данную тему,
vi - вес источника,
ni - количество сообщений из данного источника на данную тему.
Слайд 35Формула актуальности темы
Rfull=Ffull(Rtime, Ruser, Rsmi)
![Формула актуальности темы Rfull=Ffull(Rtime, Ruser, Rsmi)](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-34.jpg)
Слайд 36Простейшая формула актуальности темы
, где atime, auser, asmi – соответствующие коэффициенты рангов
![Простейшая формула актуальности темы , где atime, auser, asmi – соответствующие коэффициенты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-35.jpg)
по времени, важности, задаваемые пользователем.
Слайд 37Формула актуальности темы
Более гибкий и сложный вариант – многокритериальное ранжирование.
![Формула актуальности темы Более гибкий и сложный вариант – многокритериальное ранжирование.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-36.jpg)
Слайд 38Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
![Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-37.jpg)
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 39Аннотирование тем
Предлагается использование результатов кластерного анализа с разбиением на абзацы для реферирования
![Аннотирование тем Предлагается использование результатов кластерного анализа с разбиением на абзацы для](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-38.jpg)
полученных тем. Выделяются абзацы, ближайшие к центру кластера, содержание каждого такого абзаца будет наиболее близко к теме соответствующего кластера.
Полученные абзацы представляют собой законченные смысловые блоки текста, наиболее близкие к данной теме, то есть реферат темы.
Слайд 40Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
![Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-39.jpg)
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 41Аннотирование сообщений
Для каждого сообщения в теме (кластере) можно найти один или несколько
![Аннотирование сообщений Для каждого сообщения в теме (кластере) можно найти один или](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-40.jpg)
абзацев, которые будет наиболее близки к центру данного кластера.
Данные абзацы будет являться выдержкой из текста, которая наиболее близка по содержимому к выбранной теме, то есть кратким описанием сообщения как элемента темы.
Слайд 42Наглядное представление
метода аннотирования
Кластер, описывающий тему
Абзацы одного сообщения
Центральный абзац кластера
![Наглядное представление метода аннотирования Кластер, описывающий тему Абзацы одного сообщения Центральный абзац кластера](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-41.jpg)
Слайд 43Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
![Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-42.jpg)
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 44Пример аннотирования
ПО ДАННЫМ ПАРАЛЛЕЛЬНОГО ПОДСЧЕТА 67,3%% БЮЛЛЕТЕНЕЙ В ШТАБЕ ЯНУКОВИЧА, ЗА ПРЕМЬЕРА
![Пример аннотирования ПО ДАННЫМ ПАРАЛЛЕЛЬНОГО ПОДСЧЕТА 67,3%% БЮЛЛЕТЕНЕЙ В ШТАБЕ ЯНУКОВИЧА, ЗА](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-43.jpg)
ПРОГОЛОСОВАЛИ 50,54
Как заявила журналистам представитель штаба Януковича Раиса Богатырева, после обработки 67,3%% бюллетеней центром параллельного подсчета голосов при штабе за Януковича проголосовали 50,54%%, за Ющенко - 45,53%%.
НАБЛЮДАТЕЛИ ОТ СНГ НЕ ЗАФИКСИРОВАЛИ СЕРЬЕЗНЫХ НАРУШЕНИЙ НА ВЫБОРАХ ПРЕЗИДЕНТА УКРАИНЫ
В частности, в Одессе, Львове, Киеве наблюдалось несвоевременное открытие избирательных участков, уточнил собеседник агентства. Также, по его словам, во Львове, Херсонской области и Луцке на отдельных избирательных участках в кабины для голосования заходили сразу несколько человек.
Слайд 45Пример аннотирования
системы «Яндекс Новости»
Украина: взлом сейфа и гонки по вертикали 11:21
![Пример аннотирования системы «Яндекс Новости» Украина: взлом сейфа и гонки по вертикали](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-44.jpg)
Правда.ru
Со всех уголков Украины продолжает поступать информация о нарушениях и ...
... списков и бюллетеней только в 14 часов в воскресенье, сообщает МВД Украины.
Оппозиция на улице, в ЦИКе перерыв 11:05 РБК
ЦИК Украины объявил перерыв в подсчете голосов до 15 часов.
... обработки Центральной избирательной комиссией Украины 75,26% протоколов стало ...
Слайд 46Ранжирование сообщений в выбранном событии
Ранжирование сообщений по времени
Ранжирование сообщений по содержанию
![Ранжирование сообщений в выбранном событии Ранжирование сообщений по времени Ранжирование сообщений по содержанию](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-45.jpg)
Слайд 47Ранжирование сообщений по времени
Использует подобную функцию, как и в случае ранжирования
![Ранжирование сообщений по времени Использует подобную функцию, как и в случае ранжирования событий.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-46.jpg)
событий.
Слайд 48Ранжирование сообщений по содержанию
Близость сообщения к центру группы.
Процент абзацев сообщения,
![Ранжирование сообщений по содержанию Близость сообщения к центру группы. Процент абзацев сообщения, наиболее близких тематике события.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-47.jpg)
наиболее близких тематике события.
Слайд 49Формула ранга сообщения
Подход к вычислению итогового ранга аналогичен подходу вычисления актуальности темы.
Простой
![Формула ранга сообщения Подход к вычислению итогового ранга аналогичен подходу вычисления актуальности](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-48.jpg)
случай – произведение рангов,
Сложный случай – многокритериальное ранжирование.
Слайд 50Заключение
Рассмотренная задача автоматического определения актуальности сообщения отличается от уже существующих задач аналитической
![Заключение Рассмотренная задача автоматического определения актуальности сообщения отличается от уже существующих задач](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-49.jpg)
обработки текстов более широким подходом к анализу новых сообщений.
Предлагается анализировать не только содержимое текстов, но большое число других факторов, что позволяет в итоге более точно ранжировать сообщения по степени актуальности их для аналитика, обращать внимание на наиболее важные и свежие сообщения и пропускать ненужные.
Слайд 51Новизна исследования
Разработаны:
Метод кластерного анализа текстовых сообщений с использованием структуры текста
Метод ранжирования тем
![Новизна исследования Разработаны: Метод кластерного анализа текстовых сообщений с использованием структуры текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-50.jpg)
сообщений
Метод наглядного представления тем и сообщений
Слайд 53Подсистема предварительной обработки
Лингвистическая обработка, формирование векторного представления.
Формирование паспорта сообщения.
![Подсистема предварительной обработки Лингвистическая обработка, формирование векторного представления. Формирование паспорта сообщения.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-52.jpg)
Слайд 55Подсистема хранения
Хранение данных системы,
таких как тексты и паспорта сообщений, лексический словарь,
![Подсистема хранения Хранение данных системы, таких как тексты и паспорта сообщений, лексический](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-54.jpg)
статистика запросов пользователей и прочая информация.
Слайд 56Подсистема выделения тем и вычисления актуальности
Выделение тем
Подготовка кластерного анализа
Кластерный анализ абзацев
Переход
![Подсистема выделения тем и вычисления актуальности Выделение тем Подготовка кластерного анализа Кластерный](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-55.jpg)
от групп абзацев к группам сообщений
Вычисление актуальности
Слайд 57Подсистема визуализации
Получение данных
Дополнительная обработка данных
Выдача данных пользователю и реакция на запросы
![Подсистема визуализации Получение данных Дополнительная обработка данных Выдача данных пользователю и реакция на запросы](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/461145/slide-56.jpg)