Кластерная индексация файлов для оптимизации поиска информации в распределенной файловой системе

Март 11, 2021

Главная
Информатика
Кластерная индексация файлов для оптимизации поиска информации в распределенной файловой системе

Содержание

2. Актуальность: Высокие темпы роста объема текстовой информации Накопление неклассифицированных данных в распределенной структуре Отсутствие возможности оптимального
3. Цель: Целью работы является разработка метода эффективного поиска текстовой информации в распределенной файловой системе с высокой
4. Общая архитектура 04 / 24
5. Выборка: Иерархическая структурированная библиотека открытая для скачивания объемом 21гб 05 / 24
6. Сбор и очистка данных: Данные Полученные очищенные слова данные отравляются На формирование входного вектора 06 /
7. Формирование входного вектора для кластеризатора 07 / 24
8. Существующие подходы к кластеризации: 08 / 24
9. Существующие подходы к индексации 09 / 24
10. Обоснование выбранного решение: Устойчивость к шумам Скорость Точность Адаптивность Отсутствие необходимости в эвристиках SOINN 10 /
11. Формирование структуры кластеров 11 / 24
12. Индексация Каждому кластеру присваивается уникальный индекс в порядке вложенности Пределом кластеризации является сведение к один кластер
13. Пример иерархической индексированной кластерной структуры файлов По окончанию иерархической кластеризации каждый файл отделяется в отдельный персональный
14. Пример вида метаинформации в документе 14 / 24
15. Пример сохраненной метаинформации в текстовом файле 15 / 24
16. Поиск 16 / 24
17. Имплементация: 17 / 24
18. Визуальный интерфейс 18/ 24
19. Поисковый запрос 19 / 24
20. Расширение поискового запроса 20 / 24
21. Экран настроек 21 / 24
22. Анализ эффективности: 400мб 1,5гб 7 мс 18 мс 21гб 19 мс 23 мс 22 / 24
23. Сравнительная характеристика алгоритмов поиска 23 / 24
25. Скачать презентацию

Слайд 2

Актуальность:
Высокие темпы роста объема текстовой информации
Накопление неклассифицированных данных в распределенной структуре
Отсутствие возможности

Актуальность: Высокие темпы роста объема текстовой информации Накопление неклассифицированных данных в распределенной

оптимального смыслового определения архитектуры классов
Необходимость в высококачественном и быстром поиске по большому массиву документов

02 / 24

Слайд 3

Цель:
Целью работы является разработка метода эффективного поиска текстовой информации в распределенной файловой

Цель: Целью работы является разработка метода эффективного поиска текстовой информации в распределенной

системе с высокой производительностью и качеством при малых ресурсных затратах приложения

03 / 24

Слайд 4

Общая архитектура
04 / 24

Общая архитектура 04 / 24

Слайд 5

Выборка:
Иерархическая структурированная библиотека открытая для скачивания объемом 21гб
05 / 24

Выборка: Иерархическая структурированная библиотека открытая для скачивания объемом 21гб 05 / 24

Слайд 6

Сбор и очистка данных:
Данные
Полученные очищенные слова данные отравляются
На формирование входного вектора
06

Сбор и очистка данных: Данные Полученные очищенные слова данные отравляются На формирование

/ 24

Слайд 7

Формирование входного вектора для кластеризатора
07 / 24

Формирование входного вектора для кластеризатора 07 / 24

Слайд 8

Существующие подходы к кластеризации:
08 / 24

Существующие подходы к кластеризации: 08 / 24

Слайд 9

Существующие подходы к индексации
09 / 24

Существующие подходы к индексации 09 / 24

Слайд 10

Обоснование выбранного решение:
Устойчивость к шумам
Скорость
Точность
Адаптивность
Отсутствие необходимости в эвристиках
SOINN
10 / 24

Обоснование выбранного решение: Устойчивость к шумам Скорость Точность Адаптивность Отсутствие необходимости в

Слайд 11

Формирование структуры кластеров
11 / 24

Формирование структуры кластеров 11 / 24

Слайд 12

Индексация
Каждому кластеру присваивается уникальный индекс в порядке вложенности
Пределом кластеризации является сведение к

Индексация Каждому кластеру присваивается уникальный индекс в порядке вложенности Пределом кластеризации является

один кластер это один файл и таким образом можно определить вложенность кластеров как уникальный HASH

12 / 24

Слайд 13

Пример иерархической индексированной кластерной структуры файлов
По окончанию иерархической кластеризации каждый файл отделяется

Пример иерархической индексированной кластерной структуры файлов По окончанию иерархической кластеризации каждый файл

в отдельный персональный кластер (исключение: файлы дубликаты/копии)
Индекс файла со звездочкой: 0001000300020002

13 / 24

Слайд 14

Пример вида метаинформации в документе
14 / 24

Пример вида метаинформации в документе 14 / 24

Слайд 15

Пример сохраненной метаинформации в текстовом файле
15 / 24

Пример сохраненной метаинформации в текстовом файле 15 / 24

Слайд 16

Поиск
16 / 24

Поиск 16 / 24

Слайд 17

Имплементация:
17 / 24

Имплементация: 17 / 24

Слайд 18

Визуальный интерфейс
18/ 24

Визуальный интерфейс 18/ 24

Слайд 19

Поисковый запрос
19 / 24

Поисковый запрос 19 / 24

Слайд 20

Расширение поискового запроса
20 / 24

Расширение поискового запроса 20 / 24

Слайд 21

Экран настроек
21 / 24

Экран настроек 21 / 24

Слайд 22

Анализ эффективности:
400мб
1,5гб
7 мс
18 мс
21гб
19 мс
23 мс
22 / 24

Анализ эффективности: 400мб 1,5гб 7 мс 18 мс 21гб 19 мс 23 мс 22 / 24

Слайд 23

Сравнительная характеристика алгоритмов поиска
23 / 24

Сравнительная характеристика алгоритмов поиска 23 / 24