Кластерная индексация файлов для оптимизации поиска информации в распределенной файловой системе

Содержание

Слайд 2

Актуальность:

Высокие темпы роста объема текстовой информации
Накопление неклассифицированных данных в распределенной структуре
Отсутствие возможности

Актуальность: Высокие темпы роста объема текстовой информации Накопление неклассифицированных данных в распределенной
оптимального смыслового определения архитектуры классов
Необходимость в высококачественном и быстром поиске по большому массиву документов

02 / 24

Слайд 3

Цель:

Целью работы является разработка метода эффективного поиска текстовой информации в распределенной файловой

Цель: Целью работы является разработка метода эффективного поиска текстовой информации в распределенной
системе с высокой производительностью и качеством при малых ресурсных затратах приложения

03 / 24

Слайд 4

Общая архитектура

04 / 24

Общая архитектура 04 / 24

Слайд 5

Выборка:

Иерархическая структурированная библиотека открытая для скачивания объемом 21гб

05 / 24

Выборка: Иерархическая структурированная библиотека открытая для скачивания объемом 21гб 05 / 24

Слайд 6

Сбор и очистка данных:

Данные

Полученные очищенные слова данные отравляются
На формирование входного вектора

06

Сбор и очистка данных: Данные Полученные очищенные слова данные отравляются На формирование
/ 24

Слайд 7

Формирование входного вектора для кластеризатора

07 / 24

Формирование входного вектора для кластеризатора 07 / 24

Слайд 8

Существующие подходы к кластеризации:

08 / 24

Существующие подходы к кластеризации: 08 / 24

Слайд 9

Существующие подходы к индексации

09 / 24

Существующие подходы к индексации 09 / 24

Слайд 10

Обоснование выбранного решение:

Устойчивость к шумам
Скорость
Точность
Адаптивность
Отсутствие необходимости в эвристиках

SOINN

10 / 24

Обоснование выбранного решение: Устойчивость к шумам Скорость Точность Адаптивность Отсутствие необходимости в

Слайд 11

Формирование структуры кластеров

11 / 24

Формирование структуры кластеров 11 / 24

Слайд 12

Индексация

Каждому кластеру присваивается уникальный индекс в порядке вложенности
Пределом кластеризации является сведение к

Индексация Каждому кластеру присваивается уникальный индекс в порядке вложенности Пределом кластеризации является
один кластер это один файл и таким образом можно определить вложенность кластеров как уникальный HASH

12 / 24

Слайд 13

Пример иерархической индексированной кластерной структуры файлов

По окончанию иерархической кластеризации каждый файл отделяется

Пример иерархической индексированной кластерной структуры файлов По окончанию иерархической кластеризации каждый файл
в отдельный персональный кластер (исключение: файлы дубликаты/копии)
Индекс файла со звездочкой: 0001000300020002

13 / 24

Слайд 14

Пример вида метаинформации в документе

14 / 24

Пример вида метаинформации в документе 14 / 24

Слайд 15

Пример сохраненной метаинформации в текстовом файле

15 / 24

Пример сохраненной метаинформации в текстовом файле 15 / 24

Слайд 16

Поиск

16 / 24

Поиск 16 / 24

Слайд 17

Имплементация:

17 / 24

Имплементация: 17 / 24

Слайд 18

Визуальный интерфейс

18/ 24

Визуальный интерфейс 18/ 24

Слайд 19

Поисковый запрос

19 / 24

Поисковый запрос 19 / 24

Слайд 20

Расширение поискового запроса

20 / 24

Расширение поискового запроса 20 / 24

Слайд 21

Экран настроек

21 / 24

Экран настроек 21 / 24

Слайд 22

Анализ эффективности:

400мб

1,5гб

7 мс

18 мс

21гб

19 мс

23 мс

22 / 24

Анализ эффективности: 400мб 1,5гб 7 мс 18 мс 21гб 19 мс 23 мс 22 / 24

Слайд 23

Сравнительная характеристика алгоритмов поиска

23 / 24

Сравнительная характеристика алгоритмов поиска 23 / 24
Имя файла: Кластерная-индексация-файлов-для-оптимизации-поиска-информации-в-распределенной-файловой-системе.pptx
Количество просмотров: 31
Количество скачиваний: 0