Разработка ИТ и систем для стимулирования устойчивого развития личности, как одна из основ развития цифрового Казахстана

Содержание

Слайд 2

Группы проекта

Мусабаев Р.Р.: Уалиева И.М., Красовицкий А.М., Мейрамбеккызы Ж., Аманбай А., Козбагаров

Группы проекта Мусабаев Р.Р.: Уалиева И.М., Красовицкий А.М., Мейрамбеккызы Ж., Аманбай А.,
О.Б., Төлеу А., Төлеген Г., Сейтқали Д., Нурзакова Ж.
Мухамедиев Р.И.: Якунин К.О., Кучин Я.И., Сымагулов А., Мурзахметов С.Б., Мустакаев Р.Р., Шалқарбайұлы А.
Техническая: Касымжанов Б.К., Ибраева В.М., Мукашев А.Ш., Меркебаев А.Г., Шахмаев Р.А., Кулемзин А.А., Айтмухамбетова Г.А.
АО «ИАЦ»: Булдыбаев Т. – руководитель проекта соисполнителя
Иностранные ученые: Барахнин В.Б., Кожемякина О.Ю., Хорошилов А.А., Младенович Н.

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 3

Цель проекта

Разработка методических и технологических основ применения информационной системы социального доверия с

Цель проекта Разработка методических и технологических основ применения информационной системы социального доверия
целью стимулирования устойчивого развития личности с использованием технологий «Больших данных».

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 4

Задача. Создание необходимых технических и экспертно-аналитических условий для разработки информационной системы оценки

Задача. Создание необходимых технических и экспертно-аналитических условий для разработки информационной системы оценки
влияния открытых текстовых информационных источников на социум

Внедрение документов на основе вариационного автоэнкодера с рекуррентной нейронной сетью
Реферирование текстового документа с помощью Word Mover’s Distance и извлеченных ключевых слов документа
Группировка новостных публикаций по инфоповодам с помощью методов кластеризации
Разработаны технологии создания декларативных средств для кластеризации документов СМИ (на основе методов семантического анализа текстов)
Разработаны методики для автоматического формирования тематических словарей социально-значимых понятий
Разработан метод декомпозиций в кластеризации

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 5

Using Centroid Keywords and WMD for Single Document Extractive Summarization - Использование

Using Centroid Keywords and WMD for Single Document Extractive Summarization - Использование
центроидных ключевых слов и WMD для обобщения извлечения одного документа

Extractive – формируются из имеющихся предложений в тексте
Single Document – используется информация только одного документа
Dataset: DUC 2002 – 567 новостей и их суммаризации
Метрика оценки качества ROUGE

Лаборатория «Анализа и моделирования информационных процессов»

Document

Keyword Extraction

Sentence scoring with WMD

Summary:
First 100 words

Слайд 6

Лаборатория «Анализа и моделирования информационных процессов»

2. Cosine distance to C: Косинусное расстояние

Лаборатория «Анализа и моделирования информационных процессов» 2. Cosine distance to C: Косинусное
до С

Centroid word embedding:
Встраивание центроидного слова

3. Sentence scoring with WMD:

Описание метода

Что уже есть:
Есть методы где используются centroid embeddings предложений и документов.
Есть работы где берут WMD между предложениями в документе.
В чем новизна?
В этой работе предлагается использовать преимущества обеих методов в комбинации.

Слайд 7

Лаборатория «Анализа и моделирования информационных процессов»

Table 2: ROUGE-1 evaluation scores for our

Лаборатория «Анализа и моделирования информационных процессов» Table 2: ROUGE-1 evaluation scores for
system, top 7 DUC02 systems, MEAD, TextRank, and the baseline.

Результаты и замечания

Выводы:
По результатам ROUGE предложенный метод может конкурировать с state of the art системами суммаризаций.
Максимально объективный score который может достигнуть системы это 50% F-меры, выше этой отметки можно считать overfitting-ом.
Замечания:
Использовать tf-idf.
Обосновать почему 25% ближайших слов к центру являются ключевыми словами.

Слайд 8

Word mover’s distance

Пример:

 

Идея: Расстояние между текстами, D – это минимальная потраченная работа

Word mover’s distance Пример: Идея: Расстояние между текстами, D – это минимальная
для транспортировки одного текста в другую. Чем меньше затрачено работы тем больше схожи два текста между собой.
Работа = (вес слова) х (дистанция)
Формула:

 

 

TF-IDF
Машинное обучение

Word2Vec:
Нейронные сети

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 9

Группировка новостных публикаций по инфоповодам с помощью методов кластеризации

Постановка задачи:
Разработать подходы к

Группировка новостных публикаций по инфоповодам с помощью методов кластеризации Постановка задачи: Разработать
группировке текстовой информации по инфоповодам на основе их семантического содержания с помощью методов кластеризации
Область применения – разрабатываемая информационная система для анализа новостных статей, публикуемые в казахстанском сегменте средств массовой информации на русском языке.
Инфоповод – это одно событие, происшествие или заявление, которое тиражируется в СМИ.

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 10

Комбинированный подход: Мера Жаккара + WMD

Мера Жаккара :

 

Мера, основанная на Word Mover’s Distance:

 

 

Разработанная

Комбинированный подход: Мера Жаккара + WMD Мера Жаккара : Мера, основанная на
функция расстояния между публикациями:

 

 

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 11

Комбинированный подход: Мера Жаккара + WMD

Лаборатория «Анализа и моделирования информационных процессов»

Комбинированный подход: Мера Жаккара + WMD Лаборатория «Анализа и моделирования информационных процессов»

Слайд 12

Светло-зеленым цветом - новости раздела финансы
Темно-зеленым – спорт (футбол)
синие - происшествия
оранжевые

Светло-зеленым цветом - новости раздела финансы Темно-зеленым – спорт (футбол) синие -
- политика
темно-коричневые - уникальные новости -это новости спорта (кроме футбола) и новости культуры и военного дела.

Лаборатория «Анализа и моделирования информационных процессов»

Комбинированный подход: Мера Жаккара + WMD

t-SNE (t-distributed Stochastic Neighbor Embedding)

Слайд 13

Применимость разработанного
подхода к “большим данным”

Время вычисления матрицы дистанций WMD 822 x

Применимость разработанного подхода к “большим данным” Время вычисления матрицы дистанций WMD 822
822 составило около 130 минут (16 процессов было задействовано).
Если корпус состоит из 1 000 000 статей, то время вычисления матрицы дистанции WMD составит примерно 130*10^6 минут или 36 111 дней или 99 лет.
Таким образом, требуется модифицировать подход с целью применения к “большим данным”.

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 14

Виды представления публикаций

Лаборатория «Анализа и моделирования информационных процессов»

Виды представления публикаций Лаборатория «Анализа и моделирования информационных процессов»

Слайд 15

Первые k предложения новостной публикации

Лаборатория «Анализа и моделирования информационных процессов»

Первые k предложения новостной публикации Лаборатория «Анализа и моделирования информационных процессов»

Слайд 16

Комбинированный подход: Мера Жаккара + Word’s Average

Мера Жаккара :

 

Мера, основанная на евклидовом расстоянии:

 

 

Функция

Комбинированный подход: Мера Жаккара + Word’s Average Мера Жаккара : Мера, основанная
расстояния:

 

 

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 17

Комбинированный подход: Мера Жаккара + Word’s Average

Лаборатория «Анализа и моделирования информационных

Комбинированный подход: Мера Жаккара + Word’s Average Лаборатория «Анализа и моделирования информационных процессов»
процессов»

Слайд 18

Применимость разработанного подхода к “большим данным”

Рассмотрен корпус из 10 000 новостей. Время

Применимость разработанного подхода к “большим данным” Рассмотрен корпус из 10 000 новостей.
вычисления матрицы евклидова расстояния данного корпуса (1 процесс было задействован) составило 72 минуты.
Если корпус состоит из 1 000 000 статей, то время вычисления матрицы дистанции составит примерно 720 000 минут или 200 дней.

Слайд 19

Технологии создания декларативных средств для кластеризации документов СМИ (на основе методов семантического

Технологии создания декларативных средств для кластеризации документов СМИ (на основе методов семантического
анализа текстов)

Задачи исследования
Разработать новые методы, алгоритмы и технологии решения задачи создания декларативных средств для автоматической кластеризации текстовых документов СМИ.
Исследовать и разработать методы и алгоритмы выделения из текстов сущностей (значимых понятий) для задачи кластеризации.
Исследовать и разработать алгоритмы формирования частотных словарей слов и словосочетаний и представить их в табличном виде.
Исследовать и разработать технологии и процедуры назначение элементам формализованного представления документа весовых коэффициентов их смысловой значимости.
Выполнить анализ полученных результатов при различных исходных данных.
Разработать общую технологическую схему процесса создания декларативных средств для автоматической кластеризации текстовых документов СМИ.

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 20

Основной идеей этой концепции является обоснование использования в качестве основных единиц смысла

Основной идеей этой концепции является обоснование использования в качестве основных единиц смысла
устойчивых фразеологических и терминологических словосочетаний, обозначающих понятия и отношения между понятиями, представленные в предметной области.
Иерархия единицы смысла:
Наименование понятия (сущность) – выражено словом или словосочетанием
Предложение – его смысловой структурой является предикатно-актантная структура
Сверхфразовое единство –фрагмент текста, объединенный общей темой
Смысловое представление содержания текста - концептуальный образ документа (КОД) - совокупность взаимосвязанных наименований понятий текста, расположенных в нем строго определенном порядке)
Семантическая карта документа – концептуальный граф, в котором вершины – нормализованные наименования понятий, дуги – унифицированные смысловые отношения между понятиями

Теоретическая концепция фразеологического концептуального анализа текстов

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 21

Гибридный алгоритм №5 выявления наименований понятий в текстах документов

Лаборатория «Анализа и моделирования

Гибридный алгоритм №5 выявления наименований понятий в текстах документов Лаборатория «Анализа и моделирования информационных процессов»
информационных процессов»

Слайд 22

Кол. Документов в массиве = 3 004 документов
Всего слов в массиве документов=

Кол. Документов в массиве = 3 004 документов Всего слов в массиве
523 810 слов
Разных слов (на уровне словоизменения) = 88 925
Среднее число слов в документе = 174.4 слов/док
Среднее число разных слов в документе = 29.5 слов/док
Всего словосочетаний в массиве (по словарю ЭКС)= 1 106 355 словосоч.
Разных словосочетаний (на уровне словоизменения слов) = 67 571 словосоч.
Кол. разных главных слов (на уровне словоизменения слов) = 5 577слов
Среднее число словосочетаний в документе = 368.3 словосоч./док
Среднее число разных словосочетаний в документе = 22.5 словосоч./док

Исходные статистические данные по массиву сообщений СМИ

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 23

Разработаны новые методы, алгоритмы и технологии решения задачи создания декларативных средств для

Разработаны новые методы, алгоритмы и технологии решения задачи создания декларативных средств для
автоматической кластеризации текстовых документов СМИ.
Исследованы и разработаны методы и алгоритмы выделения из текстов сущностей (значимых понятий) для задачи кластеризации.
Разработаны алгоритмы формирования частотных словарей слов и словосочетаний и представления их в табличном виде.
Разработан алгоритм формирования смыслового представления документов.
Разработаны технологии и процедуры назначение элементам формализованного представления документа весовых коэффициентов их смысловой значимости.
Выполнен предварительный анализ полученных результатов при различных исходных данных.

Результаты выполненных исследований

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 24

Автоматическое формирование тематических словарей социально-значимых понятий

Распознавание социально значимых тем во множестве разнотематических

Автоматическое формирование тематических словарей социально-значимых понятий Распознавание социально значимых тем во множестве
новостных данных.
Какие темы можно отнести к социально значимым?

Лаборатория «Анализа и моделирования информационных процессов»

ТАБЛИЦА 1. Статистика по данным социологических исследований ЦСПИ «Стратегия»

Слайд 25

Алгоритм выявления социально значимых новостей из кластеров новостных статей

Лаборатория «Анализа и моделирования

Алгоритм выявления социально значимых новостей из кластеров новостных статей Лаборатория «Анализа и
информационных процессов»

Самые частотные темы (размер кластера пропорционален резонансности)

1.Словарь именованных сущностей (например, самые популярные имена из шоу-бизнеса) 2. Словарь именованных сущностей из социально значимых тем

Словарь статических тем

1.Резонансные

2. Скандально-событийные (шоу-бизнес)

3. Социально значимые

*относительно большого корпуса новостей 2,3 млн статей

Слайд 26

Лаборатория «Анализа и моделирования информационных процессов»

Матрица смежности слов

I ФОРМИРОВАНИЕ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА

Лаборатория «Анализа и моделирования информационных процессов» Матрица смежности слов I ФОРМИРОВАНИЕ ТЕМАТИЧЕСКИХ
ОСНОВЕ CO-OCCURRENCE МАТРИЦЫ

II ТЕМАТИЧЕСКИЕ СЛОВАРИ НА ОСНОВЕ WORD2VEC

Слайд 27

Метод декомпозиций в кластеризации

Лаборатория «Анализа и моделирования информационных процессов»

Мотивация
Кластеризация на больших наборах

Метод декомпозиций в кластеризации Лаборатория «Анализа и моделирования информационных процессов» Мотивация Кластеризация
данных. В задачах NLP актуальна для тематической кластеризации текстов, составления тематических словарей, других задачах с набором данных в метрическом пространстве
Хорошее качество кластеризации за разумное/приемлемое время
‘Рейтинговые’ соревнования на разных алгоритмах / и на разных наборах данных UCI

Слайд 28

Оценки качества алгоритмов кластеризации

Оценка на известных наборах данных c (частичной/полной) классификацией. Если

Оценки качества алгоритмов кластеризации Оценка на известных наборах данных c (частичной/полной) классификацией.
данные размечены, например получены из UCI, то можем использовать скорректированный Рэнд индекс (adjusted Rand index)
С помощью внутри- и меж- кластерных эвристик
С помощью SSD (Sum of Square Distance) критерия
Не требует размеченных данных
Имеет статистический смысл
Оценка вычислимая быстро

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 29

Идея нашего метода

Получать кластеризацию на сравнительно небольших подмножествах (выборках) исходных данных –

Идея нашего метода Получать кластеризацию на сравнительно небольших подмножествах (выборках) исходных данных
окнах используя k-means++
Найденные центроиды и их соответствующие значения SSD использовать для поиска улучшенной инициализации. Для этого используем взвешенную оценку.
Преимущества подхода:
За счет сокращения числа вычислений с большей вероятностью находим оптимальную кластеризацию
Менее чувствителен к шумовым выбросам

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 30

Параллельная декомпозиция Phase 1

Win 1,…, win n независимые выборки(окна) из полного набора данных
SSD

Параллельная декомпозиция Phase 1 Win 1,…, win n независимые выборки(окна) из полного
1,…,SSD n соответствующие оценки

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 31

Последовательная декомпозиция Phase 2

Используется предыдущий алгоритм для инициализации
Добавление следующего окна win n+l вносит

Последовательная декомпозиция Phase 2 Используется предыдущий алгоритм для инициализации Добавление следующего окна
вклад в общее расположение начальных центроидов в соответствии с полученным SSD n+l
Останов по заданному времени/числу итераций

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 32

Результаты экспериментов на синтетических наборах данных и данных UCI**

Лаборатория «Анализа и

Результаты экспериментов на синтетических наборах данных и данных UCI** Лаборатория «Анализа и моделирования информационных процессов»
моделирования информационных процессов»

Слайд 33

Обобщение метода декомпозиций на другие алгоритмы кластеризации

Заменить k-means++ любым кластерным алгоритмом для

Обобщение метода декомпозиций на другие алгоритмы кластеризации Заменить k-means++ любым кластерным алгоритмом
которого критерий SSD имеет смысл, как например для
Mini batch k-means
J-means
H-means
Hybrid algorithms
etc . . .
Все остальные шаги алгоритма поиска центроидов остаются неизменными
Таким образом предлагаем обобщенную мета-эвристику для ускорения кластеризации на больших наборах данных

Лаборатория «Анализа и моделирования информационных процессов»