Слайд 2Постановка задачи
Объект: потоки новостных сообщений
Цель: автоматическое выделение и представление актуальных тем в
потоке новостей.
Слайд 3Актуальность задачи
Актуальность задачи обосновывается:
С одной стороны, потребностью получать в реальном масштабе времени
наиболее полные и точные сведения об окружающей обстановке.
С другой стороны, идет постоянный рост объемов доступной текстовой информации, которую уже невозможно обрабатывать ручными методами.
Слайд 4Отличие от существующих систем
Многие существующие системы обработки текстовых данных способны работать с
уже известными, заранее определенными понятиями, такими как поисковый запрос и образ рубрики.
Но эти системы не способны в полной мере оперировать с новыми неизвестными понятиями, такими, как только что произошедшее событие.
Слайд 5Типичный день аналитика:
Обойти все интересующие новостные сайты
Выделить для себя самые актуальные темы
Создать
дайджест актуальных новостей
Слайд 6Используемые понятия
Сообщение - единичный текстовый документ, поступающий из некоторого источника.
Тема - «тема
- предмет описания, изображения, исследования, выступления, дискуссии». В новостных системах тема описывается множеством сообщений, связанных между собой общим событием.
Слайд 7Модель темы
Тема – абстрактное понятие, описываемое однородной группой похожих, в определенном смысле,
сообщений.
Слайд 8Ограничение автоматизированных систем
Любая автоматизированная система не способна однозначно выделить темы, она может
лишь описать ее множеством сообщений, сама тема складывается в голове у пользователя системы после ознакомления с данным множеством сообщений.
Слайд 9Методы автоматической обработки тем
Выделение тем
Ранжирование тем
Представление тем
Слайд 10Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 11Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 12Кластеризация текстовых сообщений
Целью кластеризации сообщений является автоматическое выявление групп лексически похожих сообщений
среди заданного фиксированного множества сообщений.
Слайд 13Формальная модель текста
Тексты представляются векторами в элементарной теоретико-множественной модели. В качестве информационных
признаков выбраны простые термины, приведенные к нормальной форме с помощью морфоанализа. Для снижения размерности используется селекция и трансформация признаков.
Слайд 14Использование структуры текста
Авторы сообщений вносят дополнительную смысловую структуру в текст, разбивая его
на абзацы – части текста, характеризующиеся единством и относительной законченностью содержания.
Данное разбиение позволяет выделить отдельные мысли в тексте и использовать это для улучшения кластерного анализа.
Слайд 15Метод кластерного анализа текстов с разбиением на абзацы
Выделение абзацев
Кластерный анализ абзацев
Переход от
групп абзацев к группам документов
Слайд 16Эффективность кластерного анализа текстов
с разбиением на абзацы
Применение разбиения на абзацы позволяет
уменьшить относительную ошибку кластеризации в 2 раза.
Слайд 17Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 18Понятие «актуальности»
Согласно БСЭ, «Актуальность - важность, значительность чего-либо в настоящее время, современность,
злободневность».
Слайд 19Понятие «актуальности темы»
Тема является актуальной, если она обладает следующими признаками:
1. Тема -
новая по времени, то есть описывается свежими сообщениями.
2. Тема - важная, то есть описывается сообщениями, отражающими интерес пользователей и источников к данной теме.
Слайд 20Основные факторы
актуальности тем
Время
Важность
для пользователя
для источников
Слайд 21Основные факторы
актуальности тем
Время
Важность
для пользователя
для источников
Слайд 22Ранжирование тем по времени
Сначала вычисляется среднее или последнее время сообщений в группе,
затем время нужно подставить в функцию старения s(t).
Слайд 23Вид функции старения
Современность, s
Прошедшее время, t
Слайд 25Основные факторы
актуальности тем
Время
Важность
для пользователя
для источников
Слайд 26Ранжирование тем по важности для пользователя
Важность для пользователя мы можем рассчитать
по количеству чтений сообщений из данной темы. Чем больше сообщений, тем более тема интересна пользователям.
Слайд 27Группы пользователей
При большом количестве пользователей имеет смысл разделение пользователей на группы по
интересам.
Пользователь будет относиться к одной из групп, и ранг тем по важности для пользователя будет учитывать интересы группы.
Слайд 28Ранг по важности для пользователя с учетом групп
Ранг темы по важности для
пользователя с учетом групп будет равен:
где Nread0, Nread1 – число чтений пользователей, соответственно, из «чужих» групп и «своей» группы, a0, a1 – коэффициент, соответственно, «чужих» и «своей» группы.
Слайд 29Преимущества применения групп пользователей
Ранг тем будет динамически изменяться в зависимости от группы
пользователя, и ранг будет выше у тех сообщений, которые больше интересны пользователям «своей» группы.
Слайд 30Основные факторы
актуальности тем
Время
Важность
для пользователя
для источников
Слайд 31Ранжирование событий по важности для СМИ
Количество сообщений в группе отображает общий интерес
новостных источников к данному событию. Чем больше пишут о данном событии, тем более оно интересно.
Слайд 32Ранжирование событий по важности для СМИ
Возможен более сложный вариант учета сообщений от
источников: суммирование количества сообщений от данного источника умноженных на вес источника. Этим способом мы сможем отбросить излишние цитирования и сомнительные новости.
Слайд 33Ранжирование событий по важности для СМИ
Остается неучтенным вариант, когда один источник, пусть
даже с малым весом, будет посылать большое количество сомнительных новостей на одну тему, в этом случае данная тематика подняться выше других, что неправильно.
Следует учитывать и долю источников, пишущих о данной теме, чем больше, тем лучше.
Слайд 34Ранжирование событий по важности для СМИ
Формула ранга важности для СМИ будет иметь
следующий вид:
, где i – число источников,
k- число источников, пишущих на данную тему,
vi - вес источника,
ni - количество сообщений из данного источника на данную тему.
Слайд 35Формула актуальности темы
Rfull=Ffull(Rtime, Ruser, Rsmi)
Слайд 36Простейшая формула актуальности темы
, где atime, auser, asmi – соответствующие коэффициенты рангов
по времени, важности, задаваемые пользователем.
Слайд 37Формула актуальности темы
Более гибкий и сложный вариант – многокритериальное ранжирование.
Слайд 38Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 39Аннотирование тем
Предлагается использование результатов кластерного анализа с разбиением на абзацы для реферирования
полученных тем. Выделяются абзацы, ближайшие к центру кластера, содержание каждого такого абзаца будет наиболее близко к теме соответствующего кластера.
Полученные абзацы представляют собой законченные смысловые блоки текста, наиболее близкие к данной теме, то есть реферат темы.
Слайд 40Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 41Аннотирование сообщений
Для каждого сообщения в теме (кластере) можно найти один или несколько
абзацев, которые будет наиболее близки к центру данного кластера.
Данные абзацы будет являться выдержкой из текста, которая наиболее близка по содержимому к выбранной теме, то есть кратким описанием сообщения как элемента темы.
Слайд 42Наглядное представление
метода аннотирования
Кластер, описывающий тему
Абзацы одного сообщения
Центральный абзац кластера
Слайд 43Методы автоматической обработки тем
Выделение тем
Кластеризация сообщений с использованием структуры текста
Ранжирование тем
Введение единого
ранга «актуальность» и ранжирования по нему
Представление тем
Аннотирование тем
Аннотирование сообщений
Ранжирование сообщений
Слайд 44Пример аннотирования
ПО ДАННЫМ ПАРАЛЛЕЛЬНОГО ПОДСЧЕТА 67,3%% БЮЛЛЕТЕНЕЙ В ШТАБЕ ЯНУКОВИЧА, ЗА ПРЕМЬЕРА
ПРОГОЛОСОВАЛИ 50,54
Как заявила журналистам представитель штаба Януковича Раиса Богатырева, после обработки 67,3%% бюллетеней центром параллельного подсчета голосов при штабе за Януковича проголосовали 50,54%%, за Ющенко - 45,53%%.
НАБЛЮДАТЕЛИ ОТ СНГ НЕ ЗАФИКСИРОВАЛИ СЕРЬЕЗНЫХ НАРУШЕНИЙ НА ВЫБОРАХ ПРЕЗИДЕНТА УКРАИНЫ
В частности, в Одессе, Львове, Киеве наблюдалось несвоевременное открытие избирательных участков, уточнил собеседник агентства. Также, по его словам, во Львове, Херсонской области и Луцке на отдельных избирательных участках в кабины для голосования заходили сразу несколько человек.
Слайд 45Пример аннотирования
системы «Яндекс Новости»
Украина: взлом сейфа и гонки по вертикали 11:21
Правда.ru
Со всех уголков Украины продолжает поступать информация о нарушениях и ...
... списков и бюллетеней только в 14 часов в воскресенье, сообщает МВД Украины.
Оппозиция на улице, в ЦИКе перерыв 11:05 РБК
ЦИК Украины объявил перерыв в подсчете голосов до 15 часов.
... обработки Центральной избирательной комиссией Украины 75,26% протоколов стало ...
Слайд 46Ранжирование сообщений в выбранном событии
Ранжирование сообщений по времени
Ранжирование сообщений по содержанию
Слайд 47Ранжирование сообщений по времени
Использует подобную функцию, как и в случае ранжирования
событий.
Слайд 48Ранжирование сообщений по содержанию
Близость сообщения к центру группы.
Процент абзацев сообщения,
наиболее близких тематике события.
Слайд 49Формула ранга сообщения
Подход к вычислению итогового ранга аналогичен подходу вычисления актуальности темы.
Простой
случай – произведение рангов,
Сложный случай – многокритериальное ранжирование.
Слайд 50Заключение
Рассмотренная задача автоматического определения актуальности сообщения отличается от уже существующих задач аналитической
обработки текстов более широким подходом к анализу новых сообщений.
Предлагается анализировать не только содержимое текстов, но большое число других факторов, что позволяет в итоге более точно ранжировать сообщения по степени актуальности их для аналитика, обращать внимание на наиболее важные и свежие сообщения и пропускать ненужные.
Слайд 51Новизна исследования
Разработаны:
Метод кластерного анализа текстовых сообщений с использованием структуры текста
Метод ранжирования тем
сообщений
Метод наглядного представления тем и сообщений
Слайд 53Подсистема предварительной обработки
Лингвистическая обработка, формирование векторного представления.
Формирование паспорта сообщения.
Слайд 55Подсистема хранения
Хранение данных системы,
таких как тексты и паспорта сообщений, лексический словарь,
статистика запросов пользователей и прочая информация.
Слайд 56Подсистема выделения тем и вычисления актуальности
Выделение тем
Подготовка кластерного анализа
Кластерный анализ абзацев
Переход
от групп абзацев к группам сообщений
Вычисление актуальности
Слайд 57Подсистема визуализации
Получение данных
Дополнительная обработка данных
Выдача данных пользователю и реакция на запросы