Разработка ИТ и систем для стимулирования устойчивого развития личности, как одна из основ развития цифрового Казахстана

Март 7, 2021

Главная
Информатика
Разработка ИТ и систем для стимулирования устойчивого развития личности, как одна из основ развития цифрового Казахстана

Содержание

2. Группы проекта Мусабаев Р.Р.: Уалиева И.М., Красовицкий А.М., Мейрамбеккызы Ж., Аманбай А., Козбагаров О.Б., Төлеу А.,
3. Цель проекта Разработка методических и технологических основ применения информационной системы социального доверия с целью стимулирования устойчивого
4. Задача. Создание необходимых технических и экспертно-аналитических условий для разработки информационной системы оценки влияния открытых текстовых информационных
5. Using Centroid Keywords and WMD for Single Document Extractive Summarization - Использование центроидных ключевых слов и
6. Лаборатория «Анализа и моделирования информационных процессов» 2. Cosine distance to C: Косинусное расстояние до С Centroid
7. Лаборатория «Анализа и моделирования информационных процессов» Table 2: ROUGE-1 evaluation scores for our system, top 7
8. Word mover’s distance Пример: Идея: Расстояние между текстами, D – это минимальная потраченная работа для транспортировки
9. Группировка новостных публикаций по инфоповодам с помощью методов кластеризации Постановка задачи: Разработать подходы к группировке текстовой
10. Комбинированный подход: Мера Жаккара + WMD Мера Жаккара : Мера, основанная на Word Mover’s Distance: Разработанная
11. Комбинированный подход: Мера Жаккара + WMD Лаборатория «Анализа и моделирования информационных процессов»
12. Светло-зеленым цветом - новости раздела финансы Темно-зеленым – спорт (футбол) синие - происшествия оранжевые - политика
13. Применимость разработанного подхода к “большим данным” Время вычисления матрицы дистанций WMD 822 x 822 составило около
14. Виды представления публикаций Лаборатория «Анализа и моделирования информационных процессов»
15. Первые k предложения новостной публикации Лаборатория «Анализа и моделирования информационных процессов»
16. Комбинированный подход: Мера Жаккара + Word’s Average Мера Жаккара : Мера, основанная на евклидовом расстоянии: Функция
17. Комбинированный подход: Мера Жаккара + Word’s Average Лаборатория «Анализа и моделирования информационных процессов»
18. Применимость разработанного подхода к “большим данным” Рассмотрен корпус из 10 000 новостей. Время вычисления матрицы евклидова
19. Технологии создания декларативных средств для кластеризации документов СМИ (на основе методов семантического анализа текстов) Задачи исследования
20. Основной идеей этой концепции является обоснование использования в качестве основных единиц смысла устойчивых фразеологических и терминологических
21. Гибридный алгоритм №5 выявления наименований понятий в текстах документов Лаборатория «Анализа и моделирования информационных процессов»
22. Кол. Документов в массиве = 3 004 документов Всего слов в массиве документов= 523 810 слов
23. Разработаны новые методы, алгоритмы и технологии решения задачи создания декларативных средств для автоматической кластеризации текстовых документов
24. Автоматическое формирование тематических словарей социально-значимых понятий Распознавание социально значимых тем во множестве разнотематических новостных данных. Какие
25. Алгоритм выявления социально значимых новостей из кластеров новостных статей Лаборатория «Анализа и моделирования информационных процессов» Самые
26. Лаборатория «Анализа и моделирования информационных процессов» Матрица смежности слов I ФОРМИРОВАНИЕ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА ОСНОВЕ CO-OCCURRENCE
27. Метод декомпозиций в кластеризации Лаборатория «Анализа и моделирования информационных процессов» Мотивация Кластеризация на больших наборах данных.
28. Оценки качества алгоритмов кластеризации Оценка на известных наборах данных c (частичной/полной) классификацией. Если данные размечены, например
29. Идея нашего метода Получать кластеризацию на сравнительно небольших подмножествах (выборках) исходных данных – окнах используя k-means++
30. Параллельная декомпозиция Phase 1 Win 1,…, win n независимые выборки(окна) из полного набора данных SSD 1,…,SSD
31. Последовательная декомпозиция Phase 2 Используется предыдущий алгоритм для инициализации Добавление следующего окна win n+l вносит вклад
32. Результаты экспериментов на синтетических наборах данных и данных UCI** Лаборатория «Анализа и моделирования информационных процессов»
33. Обобщение метода декомпозиций на другие алгоритмы кластеризации Заменить k-means++ любым кластерным алгоритмом для которого критерий SSD
35. Скачать презентацию

Слайд 2

Группы проекта
Мусабаев Р.Р.: Уалиева И.М., Красовицкий А.М., Мейрамбеккызы Ж., Аманбай А., Козбагаров

О.Б., Төлеу А., Төлеген Г., Сейтқали Д., Нурзакова Ж.
Мухамедиев Р.И.: Якунин К.О., Кучин Я.И., Сымагулов А., Мурзахметов С.Б., Мустакаев Р.Р., Шалқарбайұлы А.
Техническая: Касымжанов Б.К., Ибраева В.М., Мукашев А.Ш., Меркебаев А.Г., Шахмаев Р.А., Кулемзин А.А., Айтмухамбетова Г.А.
АО «ИАЦ»: Булдыбаев Т. – руководитель проекта соисполнителя
Иностранные ученые: Барахнин В.Б., Кожемякина О.Ю., Хорошилов А.А., Младенович Н.

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 3

Цель проекта
Разработка методических и технологических основ применения информационной системы социального доверия с

целью стимулирования устойчивого развития личности с использованием технологий «Больших данных».

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 4

Задача. Создание необходимых технических и экспертно-аналитических условий для разработки информационной системы оценки

влияния открытых текстовых информационных источников на социум

Внедрение документов на основе вариационного автоэнкодера с рекуррентной нейронной сетью
Реферирование текстового документа с помощью Word Mover’s Distance и извлеченных ключевых слов документа
Группировка новостных публикаций по инфоповодам с помощью методов кластеризации
Разработаны технологии создания декларативных средств для кластеризации документов СМИ (на основе методов семантического анализа текстов)
Разработаны методики для автоматического формирования тематических словарей социально-значимых понятий
Разработан метод декомпозиций в кластеризации

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 5

Using Centroid Keywords and WMD for Single Document Extractive Summarization - Использование

центроидных ключевых слов и WMD для обобщения извлечения одного документа

Extractive – формируются из имеющихся предложений в тексте
Single Document – используется информация только одного документа
Dataset: DUC 2002 – 567 новостей и их суммаризации
Метрика оценки качества ROUGE

Лаборатория «Анализа и моделирования информационных процессов»

Document

Keyword Extraction

Sentence scoring with WMD

Summary:
First 100 words

Слайд 6

Лаборатория «Анализа и моделирования информационных процессов»
2. Cosine distance to C: Косинусное расстояние

до С

Centroid word embedding:
Встраивание центроидного слова

3. Sentence scoring with WMD:

Описание метода

Что уже есть:
Есть методы где используются centroid embeddings предложений и документов.
Есть работы где берут WMD между предложениями в документе.
В чем новизна?
В этой работе предлагается использовать преимущества обеих методов в комбинации.

Слайд 7

Лаборатория «Анализа и моделирования информационных процессов»
Table 2: ROUGE-1 evaluation scores for our

system, top 7 DUC02 systems, MEAD, TextRank, and the baseline.

Результаты и замечания

Выводы:
По результатам ROUGE предложенный метод может конкурировать с state of the art системами суммаризаций.
Максимально объективный score который может достигнуть системы это 50% F-меры, выше этой отметки можно считать overfitting-ом.
Замечания:
Использовать tf-idf.
Обосновать почему 25% ближайших слов к центру являются ключевыми словами.

Слайд 8

Word mover’s distance
Пример:

Идея: Расстояние между текстами, D – это минимальная потраченная работа

для транспортировки одного текста в другую. Чем меньше затрачено работы тем больше схожи два текста между собой.
Работа = (вес слова) х (дистанция)
Формула:

TF-IDF
Машинное обучение

Word2Vec:
Нейронные сети

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 9

Группировка новостных публикаций по инфоповодам с помощью методов кластеризации
Постановка задачи:
Разработать подходы к

группировке текстовой информации по инфоповодам на основе их семантического содержания с помощью методов кластеризации
Область применения – разрабатываемая информационная система для анализа новостных статей, публикуемые в казахстанском сегменте средств массовой информации на русском языке.
Инфоповод – это одно событие, происшествие или заявление, которое тиражируется в СМИ.

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 10

Комбинированный подход: Мера Жаккара + WMD
Мера Жаккара :

Мера, основанная на Word Mover’s Distance:

Разработанная

функция расстояния между публикациями:

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 11

Комбинированный подход: Мера Жаккара + WMD
Лаборатория «Анализа и моделирования информационных процессов»

Слайд 12

Светло-зеленым цветом - новости раздела финансы
Темно-зеленым – спорт (футбол)
синие - происшествия
оранжевые

- политика
темно-коричневые - уникальные новости -это новости спорта (кроме футбола) и новости культуры и военного дела.

Лаборатория «Анализа и моделирования информационных процессов»

Комбинированный подход: Мера Жаккара + WMD

t-SNE (t-distributed Stochastic Neighbor Embedding)

Слайд 13

Применимость разработанного
подхода к “большим данным”
Время вычисления матрицы дистанций WMD 822 x

822 составило около 130 минут (16 процессов было задействовано).
Если корпус состоит из 1 000 000 статей, то время вычисления матрицы дистанции WMD составит примерно 130*10^6 минут или 36 111 дней или 99 лет.
Таким образом, требуется модифицировать подход с целью применения к “большим данным”.

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 14

Виды представления публикаций
Лаборатория «Анализа и моделирования информационных процессов»

Слайд 15

Первые k предложения новостной публикации
Лаборатория «Анализа и моделирования информационных процессов»

Слайд 16

Комбинированный подход: Мера Жаккара + Word’s Average
Мера Жаккара :

Мера, основанная на евклидовом расстоянии:

Функция

расстояния:

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 17

Комбинированный подход: Мера Жаккара + Word’s Average
Лаборатория «Анализа и моделирования информационных

процессов»

Слайд 18

Применимость разработанного подхода к “большим данным”
Рассмотрен корпус из 10 000 новостей. Время

вычисления матрицы евклидова расстояния данного корпуса (1 процесс было задействован) составило 72 минуты.
Если корпус состоит из 1 000 000 статей, то время вычисления матрицы дистанции составит примерно 720 000 минут или 200 дней.

Слайд 19

Технологии создания декларативных средств для кластеризации документов СМИ (на основе методов семантического

анализа текстов)

Задачи исследования
Разработать новые методы, алгоритмы и технологии решения задачи создания декларативных средств для автоматической кластеризации текстовых документов СМИ.
Исследовать и разработать методы и алгоритмы выделения из текстов сущностей (значимых понятий) для задачи кластеризации.
Исследовать и разработать алгоритмы формирования частотных словарей слов и словосочетаний и представить их в табличном виде.
Исследовать и разработать технологии и процедуры назначение элементам формализованного представления документа весовых коэффициентов их смысловой значимости.
Выполнить анализ полученных результатов при различных исходных данных.
Разработать общую технологическую схему процесса создания декларативных средств для автоматической кластеризации текстовых документов СМИ.

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 20

Основной идеей этой концепции является обоснование использования в качестве основных единиц смысла

устойчивых фразеологических и терминологических словосочетаний, обозначающих понятия и отношения между понятиями, представленные в предметной области.
Иерархия единицы смысла:
Наименование понятия (сущность) – выражено словом или словосочетанием
Предложение – его смысловой структурой является предикатно-актантная структура
Сверхфразовое единство –фрагмент текста, объединенный общей темой
Смысловое представление содержания текста - концептуальный образ документа (КОД) - совокупность взаимосвязанных наименований понятий текста, расположенных в нем строго определенном порядке)
Семантическая карта документа – концептуальный граф, в котором вершины – нормализованные наименования понятий, дуги – унифицированные смысловые отношения между понятиями

Теоретическая концепция фразеологического концептуального анализа текстов

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 21

Гибридный алгоритм №5 выявления наименований понятий в текстах документов
Лаборатория «Анализа и моделирования

информационных процессов»

Слайд 22

Кол. Документов в массиве = 3 004 документов
Всего слов в массиве документов=

523 810 слов
Разных слов (на уровне словоизменения) = 88 925
Среднее число слов в документе = 174.4 слов/док
Среднее число разных слов в документе = 29.5 слов/док
Всего словосочетаний в массиве (по словарю ЭКС)= 1 106 355 словосоч.
Разных словосочетаний (на уровне словоизменения слов) = 67 571 словосоч.
Кол. разных главных слов (на уровне словоизменения слов) = 5 577слов
Среднее число словосочетаний в документе = 368.3 словосоч./док
Среднее число разных словосочетаний в документе = 22.5 словосоч./док

Исходные статистические данные по массиву сообщений СМИ

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 23

Разработаны новые методы, алгоритмы и технологии решения задачи создания декларативных средств для

автоматической кластеризации текстовых документов СМИ.
Исследованы и разработаны методы и алгоритмы выделения из текстов сущностей (значимых понятий) для задачи кластеризации.
Разработаны алгоритмы формирования частотных словарей слов и словосочетаний и представления их в табличном виде.
Разработан алгоритм формирования смыслового представления документов.
Разработаны технологии и процедуры назначение элементам формализованного представления документа весовых коэффициентов их смысловой значимости.
Выполнен предварительный анализ полученных результатов при различных исходных данных.

Результаты выполненных исследований

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 24

Автоматическое формирование тематических словарей социально-значимых понятий
Распознавание социально значимых тем во множестве разнотематических

новостных данных.
Какие темы можно отнести к социально значимым?

Лаборатория «Анализа и моделирования информационных процессов»

ТАБЛИЦА 1. Статистика по данным социологических исследований ЦСПИ «Стратегия»

Слайд 25

Алгоритм выявления социально значимых новостей из кластеров новостных статей
Лаборатория «Анализа и моделирования

информационных процессов»

Самые частотные темы (размер кластера пропорционален резонансности)

1.Словарь именованных сущностей (например, самые популярные имена из шоу-бизнеса) 2. Словарь именованных сущностей из социально значимых тем

Словарь статических тем

1.Резонансные

2. Скандально-событийные (шоу-бизнес)

3. Социально значимые

*относительно большого корпуса новостей 2,3 млн статей

Слайд 26

Лаборатория «Анализа и моделирования информационных процессов»
Матрица смежности слов
I ФОРМИРОВАНИЕ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА

ОСНОВЕ CO-OCCURRENCE МАТРИЦЫ

II ТЕМАТИЧЕСКИЕ СЛОВАРИ НА ОСНОВЕ WORD2VEC

Слайд 27

Метод декомпозиций в кластеризации
Лаборатория «Анализа и моделирования информационных процессов»
Мотивация
Кластеризация на больших наборах

данных. В задачах NLP актуальна для тематической кластеризации текстов, составления тематических словарей, других задачах с набором данных в метрическом пространстве
Хорошее качество кластеризации за разумное/приемлемое время
‘Рейтинговые’ соревнования на разных алгоритмах / и на разных наборах данных UCI

Слайд 28

Оценки качества алгоритмов кластеризации
Оценка на известных наборах данных c (частичной/полной) классификацией. Если

данные размечены, например получены из UCI, то можем использовать скорректированный Рэнд индекс (adjusted Rand index)
С помощью внутри- и меж- кластерных эвристик
С помощью SSD (Sum of Square Distance) критерия
Не требует размеченных данных
Имеет статистический смысл
Оценка вычислимая быстро

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 29

Идея нашего метода
Получать кластеризацию на сравнительно небольших подмножествах (выборках) исходных данных –

окнах используя k-means++
Найденные центроиды и их соответствующие значения SSD использовать для поиска улучшенной инициализации. Для этого используем взвешенную оценку.
Преимущества подхода:
За счет сокращения числа вычислений с большей вероятностью находим оптимальную кластеризацию
Менее чувствителен к шумовым выбросам

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 30

Параллельная декомпозиция Phase 1
Win 1,…, win n независимые выборки(окна) из полного набора данных
SSD

1,…,SSD n соответствующие оценки

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 31

Последовательная декомпозиция Phase 2
Используется предыдущий алгоритм для инициализации
Добавление следующего окна win n+l вносит

вклад в общее расположение начальных центроидов в соответствии с полученным SSD n+l
Останов по заданному времени/числу итераций

Лаборатория «Анализа и моделирования информационных процессов»

Слайд 32

Результаты экспериментов на синтетических наборах данных и данных UCI**
Лаборатория «Анализа и

моделирования информационных процессов»

Слайд 33

Обобщение метода декомпозиций на другие алгоритмы кластеризации
Заменить k-means++ любым кластерным алгоритмом для

которого критерий SSD имеет смысл, как например для
Mini batch k-means
J-means
H-means
Hybrid algorithms
etc . . .
Все остальные шаги алгоритма поиска центроидов остаются неизменными
Таким образом предлагаем обобщенную мета-эвристику для ускорения кластеризации на больших наборах данных

Лаборатория «Анализа и моделирования информационных процессов»

Разработка ИТ и систем для стимулирования устойчивого развития личности, как одна из основ развития цифрового Казахстана

Содержание

Группы проектаМусабаев Р.Р.: Уалиева И.М., Красовицкий А.М., Мейрамбеккызы Ж., Аманбай А., Козбагаров

Цель проектаРазработка методических и технологических основ применения информационной системы социального доверия с

Задача. Создание необходимых технических и экспертно-аналитических условий для разработки информационной системы оценки

Using Centroid Keywords and WMD for Single Document Extractive Summarization - Использование

Лаборатория «Анализа и моделирования информационных процессов»2. Cosine distance to C: Косинусное расстояние

Лаборатория «Анализа и моделирования информационных процессов»Table 2: ROUGE-1 evaluation scores for our

Word mover’s distanceПример: Идея: Расстояние между текстами, D – это минимальная потраченная работа

Группировка новостных публикаций по инфоповодам с помощью методов кластеризацииПостановка задачи:Разработать подходы к

Комбинированный подход: Мера Жаккара + WMDМера Жаккара : Мера, основанная на Word Mover’s Distance: Разработанная

Комбинированный подход: Мера Жаккара + WMDЛаборатория «Анализа и моделирования информационных процессов»

Светло-зеленым цветом - новости раздела финансыТемно-зеленым – спорт (футбол)синие - происшествия оранжевые

Применимость разработанного подхода к “большим данным”Время вычисления матрицы дистанций WMD 822 x

Виды представления публикацийЛаборатория «Анализа и моделирования информационных процессов»

Первые k предложения новостной публикацииЛаборатория «Анализа и моделирования информационных процессов»

Комбинированный подход: Мера Жаккара + Word’s AverageМера Жаккара : Мера, основанная на евклидовом расстоянии: Функция

Комбинированный подход: Мера Жаккара + Word’s Average Лаборатория «Анализа и моделирования информационных

Применимость разработанного подхода к “большим данным”Рассмотрен корпус из 10 000 новостей. Время

Технологии создания декларативных средств для кластеризации документов СМИ (на основе методов семантического

Основной идеей этой концепции является обоснование использования в качестве основных единиц смысла

Гибридный алгоритм №5 выявления наименований понятий в текстах документовЛаборатория «Анализа и моделирования

Кол. Документов в массиве = 3 004 документовВсего слов в массиве документов=

Разработаны новые методы, алгоритмы и технологии решения задачи создания декларативных средств для

Автоматическое формирование тематических словарей социально-значимых понятийРаспознавание социально значимых тем во множестве разнотематических

Алгоритм выявления социально значимых новостей из кластеров новостных статейЛаборатория «Анализа и моделирования

Лаборатория «Анализа и моделирования информационных процессов»Матрица смежности словI ФОРМИРОВАНИЕ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА

Метод декомпозиций в кластеризацииЛаборатория «Анализа и моделирования информационных процессов»МотивацияКластеризация на больших наборах

Оценки качества алгоритмов кластеризацииОценка на известных наборах данных c (частичной/полной) классификацией. Если

Идея нашего методаПолучать кластеризацию на сравнительно небольших подмножествах (выборках) исходных данных –

Параллельная декомпозиция Phase 1Win 1,…, win n независимые выборки(окна) из полного набора данныхSSD

Последовательная декомпозиция Phase 2Используется предыдущий алгоритм для инициализацииДобавление следующего окна win n+l вносит

Результаты экспериментов на синтетических наборах данных и данных UCI** Лаборатория «Анализа и

Обобщение метода декомпозиций на другие алгоритмы кластеризацииЗаменить k-means++ любым кластерным алгоритмом для

Похожие презентации

Группы проекта
Мусабаев Р.Р.: Уалиева И.М., Красовицкий А.М., Мейрамбеккызы Ж., Аманбай А., Козбагаров

Цель проекта
Разработка методических и технологических основ применения информационной системы социального доверия с

Лаборатория «Анализа и моделирования информационных процессов»
2. Cosine distance to C: Косинусное расстояние

Лаборатория «Анализа и моделирования информационных процессов»
Table 2: ROUGE-1 evaluation scores for our

Word mover’s distance
Пример:

Идея: Расстояние между текстами, D – это минимальная потраченная работа

Группировка новостных публикаций по инфоповодам с помощью методов кластеризации
Постановка задачи:
Разработать подходы к

Комбинированный подход: Мера Жаккара + WMD
Мера Жаккара :

Мера, основанная на Word Mover’s Distance:

Разработанная

Комбинированный подход: Мера Жаккара + WMD
Лаборатория «Анализа и моделирования информационных процессов»

Светло-зеленым цветом - новости раздела финансы
Темно-зеленым – спорт (футбол)
синие - происшествия
оранжевые

Применимость разработанного
подхода к “большим данным”
Время вычисления матрицы дистанций WMD 822 x

Виды представления публикаций
Лаборатория «Анализа и моделирования информационных процессов»

Первые k предложения новостной публикации
Лаборатория «Анализа и моделирования информационных процессов»

Комбинированный подход: Мера Жаккара + Word’s Average
Мера Жаккара :

Мера, основанная на евклидовом расстоянии:

Функция

Комбинированный подход: Мера Жаккара + Word’s Average
Лаборатория «Анализа и моделирования информационных

Применимость разработанного подхода к “большим данным”
Рассмотрен корпус из 10 000 новостей. Время

Гибридный алгоритм №5 выявления наименований понятий в текстах документов
Лаборатория «Анализа и моделирования

Кол. Документов в массиве = 3 004 документов
Всего слов в массиве документов=

Автоматическое формирование тематических словарей социально-значимых понятий
Распознавание социально значимых тем во множестве разнотематических

Алгоритм выявления социально значимых новостей из кластеров новостных статей
Лаборатория «Анализа и моделирования

Лаборатория «Анализа и моделирования информационных процессов»
Матрица смежности слов
I ФОРМИРОВАНИЕ ТЕМАТИЧЕСКИХ СЛОВАРЕЙ НА

Метод декомпозиций в кластеризации
Лаборатория «Анализа и моделирования информационных процессов»
Мотивация
Кластеризация на больших наборах

Оценки качества алгоритмов кластеризации
Оценка на известных наборах данных c (частичной/полной) классификацией. Если

Идея нашего метода
Получать кластеризацию на сравнительно небольших подмножествах (выборках) исходных данных –

Параллельная декомпозиция Phase 1
Win 1,…, win n независимые выборки(окна) из полного набора данных
SSD

Последовательная декомпозиция Phase 2
Используется предыдущий алгоритм для инициализации
Добавление следующего окна win n+l вносит

Результаты экспериментов на синтетических наборах данных и данных UCI**
Лаборатория «Анализа и

Обобщение метода декомпозиций на другие алгоритмы кластеризации
Заменить k-means++ любым кластерным алгоритмом для