Создание легко обновляемых текстовых индексов

Февраль 15, 2021

Главная
Разное
Создание легко обновляемых текстовых индексов

Содержание

2. Задача Поиск слов и фраз в большой текстовой коллекции
3. Инвертированные файлы Часто используются для поиска Сложно добавлять новые данные
4. Инвертированные файлы Для каждой словоформы сохраняется информация о том, в каких документах и где в документах
5. Пример информации о вхождении 1) Номер (ID) файла 2) Позиция словоформы в файле (порядковый номер словоформы,
6. Задача Нужно сделать индекс, который бы позволял легко добавлять в него новые данные
7. CLB-дерево B-дерево, в нем хранятся слова Информация о вхождениях слова сохраняется в списке блоков
8. Морфология Морфологический анализатор Для каждой словоформы из словаря выдается набор базовых форм. Базовых форм ~ 200
9. Кэширование Храним в B-дереве не словоформы, а базовые формы. Можем хранить в памяти последний блок для
10. Плюсы Можно быстро добавлять новые данные. Информация о новых вхождениях слова добавляется в последний блок списка.
11. Минусы 1) Фрагментация – блоки могут располагаться в разных местах 2) Неэффективное использование дисковой памяти, блоки
12. Проблема фрагментации Пусть в списке блоков k блоков. Выберем число m = 2C Разделим весь список
13. Пример У нас есть 25 блоков и m = 8. Разбиваем 25 блоков на группы следующих
14. Проблема фрагментации Информация о вхождениях слова сохраняется в списке блоков
15. Алгоритм Пусть есть k заполненных подряд расположенных блоков B1, …, Bk, в частности последний блок также
16. k = 2x, x ищем 2k подряд располагающихся блоков N1, … N2k. Затем копируем информацию из
17. k = 2x, x = c Заканчиваем текущую группу блоков, в ней уже есть m =
18. Остальные случаи Используем зарезервированные ранее блоки (в случае k = 2x, x
19. Эффективное использование дисковой памяти B-дерево, в нем хранятся слова Информация о вхождениях слова сохраняется в списке
20. Эффективное использование памяти Все базовые формы разделяются на n групп. Используем n временных файлов. Вначале читаем
21. Сравнение с существующими разработками Общий объем 35,2 гб, 191 074 файла Все файлы были в кодировке
22. Описание конфигурации оборудования Процессор: Intel Core 2 Duo E6700, 2.66 GHz, кэш: L1 Data – 2
23. Создание индекса Создание инвертированного файла: время 9 часов, размер 40 гб. Создание CLB индекса: время 3
24. Добавление в индекс одного файла среднего размера Время добавления одного документа 1,2 мб. для CLB индекса:
25. Добавление в индекс одного файла малого размера Время добавления одного документа размером 534 байта для CLB
26. Время поиска Время поиска в инвертированном файле и CLB-индексе практически совпадают.
27. Выводы Проведенные эксперименты показывают высокую эффективность CLB индекса при добавлении в него данных небольшого размера.
28. Сравнение с существующими разработками Процессор: Intel Pentium 4, 3.0 GHz, кэш: L1 Data – 16 кб,
29. Создание CLB индекса Размер индекса 26,2 гб. Время создания 5 часов 49 мин. Использовался размер блока
30. SearchInform Desktop (http://www.searchinform.com) Размер индекса 16,15 гб. Время создания 9 часов.
31. Архивариус 3000 http://www.likasoft.com/ Размер индекса 24,83 гб. Время создания 6 часов 46 мин.
32. Google Desktop Размер индекса ~ 5 гб Время создания 31 час 25 минуты
33. Выводы Эксперименты показывают высокую скорость создания CLB индекса.
34. Эксперименты Общий объем 86 гб, 400 049 файла Все файлы были в кодировке Windows-1251 (CP1251). Язык
35. Описание конфигурации оборудования Процессор: Intel Core 2 Duo E6700, 2.66 GHz, кэш: L1 Data – 2
36. Создание CLB индекса Размер индекса 56,5 гб. Время создания 4 часа 28 минут. Использовался размер блока
37. Инвертированные файлы Размер индекса 117,7 гб. Время создания 20 часов 6 минут.
38. Архивариус 3000 http://www.likasoft.com/ Размер индекса 62,65 гб. Время создания 6 часов 10 минут.
39. Инструментарий Автором разработана библиотека для создания индексов и поиска в текстах, в которой реализована описанная структура
40. Форматы файлов Библиотека может индексировать файлы в различных форматах, например RTF, PDF, CHM, HTML, DJVU и
41. Архивы Поддерживается обработка архивов форматов ZIP, CAB, RAR, 7Z, ARJ, TAR, и др.
42. Архитектура Библиотека реализована в виде COM сервера для операционных систем Windows Написана на C++.
43. Архитектура Ядро, осуществляет создание индекса и поиск. Модуль поддержки морфологии Модуль распознавания кодировки. При распознавании кодировки
44. Форматы файлов Модуль поддержки форматов файлов. Поддержка форматов файлов и архивов реализована с помощью подключаемых дополнительных
45. Архитектура Модуль атрибутов документов, для сохранения описания документов. Модуль репозитария, для сохранения текстов документов. Создается для
46. Архитектура Модуль COM осуществляет доступ к остальным модулям извне с помощью COM, что позволяет использовать библиотеку
47. Системные требования Реализованные алгоритмы достаточно нетребовательные к ресурсам компьютера. Для создания индекса достаточно иметь 300–400 мегабайт
48. SSD Эффективность описанных в данном алгоритмов значительно возрастет с применением дисков SSD (Solid-state drive), за счет
50. Скачать презентацию

Задача
Поиск слов и фраз в большой текстовой коллекции

Инвертированные файлы
Часто используются для поиска
Сложно добавлять новые данные

Инвертированные файлы
Для каждой словоформы сохраняется информация о том, в каких документах и

где в документах она встречается

Пример информации о вхождении
1) Номер (ID) файла
2) Позиция словоформы в файле (порядковый

номер словоформы, номер предложения, и т. д. )

Задача
Нужно сделать индекс, который бы позволял легко добавлять в него новые данные

CLB-дерево
B-дерево, в нем хранятся слова
Информация о вхождениях слова сохраняется в списке блоков

Морфология
Морфологический анализатор
Для каждой словоформы из словаря выдается набор базовых форм.
Базовых форм ~

200 тысяч.
Словоформ ~ 4 млн.

Кэширование
Храним в B-дереве не словоформы, а базовые формы. Можем хранить в памяти

последний блок для каждой базовой формы.

Плюсы
Можно быстро добавлять новые данные. Информация о новых вхождениях слова добавляется в

последний блок списка. Когда он заполняется - создается новый блок.

Минусы
1) Фрагментация – блоки могут располагаться в разных местах
2) Неэффективное использование дисковой

памяти, блоки могут быть слабо заполнены
3) Требует много памяти для использования большого размера блока (200 000 x <Размер блока>).

Проблема фрагментации
Пусть в списке блоков k блоков.
Выберем число m = 2C
Разделим весь

список блоков на группы, размером m блоков в каждой, за исключением последней.

Пример
У нас есть 25 блоков и m = 8.
Разбиваем 25 блоков

на группы следующих размеров 8, 8, 8, 1.

Проблема фрагментации
Информация о вхождениях слова сохраняется в списке блоков

Алгоритм
Пусть есть k заполненных подряд расположенных блоков B1, …, Bk, в частности

последний блок также заполнен, и нам требуется взять где-то новый блок.

k = 2x, x < c
ищем 2k подряд располагающихся блоков N1, …

k = 2x, x ищем 2k подряд располагающихся блоков N1, … N2k.

N2k.
Затем копируем информацию из старых k блоков в первую половину новых блоков, т. е. в блоки N1, … Nk соответственно.
B1, …, Bk помечаются как свободные.
Запись далее осуществляется в Nk+1.
Nk+2, …, N2k, помечаются как зарезервированные

Слайд 17

k = 2x, x = c
Заканчиваем текущую группу блоков, в ней уже

есть m = 2c блоков.
Начинаем формировать новую группу блоков.

Слайд 18

Остальные случаи
Используем зарезервированные ранее блоки (в случае k = 2x, x <

Слайд 19

Эффективное использование дисковой памяти
B-дерево, в нем хранятся слова
Информация о вхождениях слова сохраняется

в списке блоков

Слайд 20

Эффективное использование памяти
Все базовые формы разделяются на n групп. Используем n временных

файлов. Вначале читаем документы, записываем информацию о вхождениях для i-й группы в i-й временный файл.
При создании индекса обрабатываем отдельную группу. Кэш используется только для одной группы.

Слайд 21

Сравнение с существующими разработками
Общий объем 35,2 гб, 191 074 файла
Все файлы были

в кодировке Windows-1251 (CP1251).
Язык документов – русский.
Все файлы представляли собой обычный текст.

Слайд 22

Описание конфигурации оборудования
Процессор: Intel Core 2 Duo E6700, 2.66 GHz, кэш:

L1 Data – 2 x 32 кб, L1 inst. 2 x 32 кб, L2 – 4096 кб.
Оперативная память: 4 гб, DDR2 800.
Жесткий диск: Seagate Barracuda 7200.10, 7200 RPM, кэш 16 мб., объем 750 гб.
FSB 1066 MHz.

Слайд 23

Создание индекса
Создание инвертированного файла: время 9 часов, размер 40 гб.
Создание CLB индекса:

время 3 часа, 32 мин., размер 24 гб.
Для CLB индекса использовался размер блока 16 КБ.

Слайд 24

Добавление в индекс одного файла среднего размера
Время добавления одного документа 1,2

мб. для CLB индекса: 9 мин.
Время добавления одного документа 1,2 мб. в инвертированный файл: 57 мин.

Слайд 25

Добавление в индекс одного файла малого размера
Время добавления одного документа размером

534 байта для CLB индекса: 22 с.
Время добавления одного документа размером 534 байта в инвертированный файл: 57 мин (т. е. такое же, как при размере файла 1,2 мб).

Слайд 26

Время поиска
Время поиска в инвертированном файле и CLB-индексе практически совпадают.

Слайд 27

Выводы
Проведенные эксперименты показывают высокую эффективность CLB индекса при добавлении в него данных

небольшого размера.

Слайд 28

Сравнение с существующими разработками
Процессор: Intel Pentium 4, 3.0 GHz, кэш: L1

Data – 16 кб, L1 trace – 12 Kuops, L2 - 2048 кб.
Оперативная память: 4 гб, DDR2 533.
Жесткий диск: Seagate Barracuda 7200.8, 7200 RPM, кэш 8 мб., объем 200 гб.
FSB: 800 MHz.

Слайд 29

Создание CLB индекса
Размер индекса 26,2 гб.
Время создания 5 часов 49 мин.
Использовался

размер блока 16 КБ.

Слайд 30

SearchInform Desktop (http://www.searchinform.com)
Размер индекса 16,15 гб.
Время создания 9 часов.

Слайд 31

Архивариус 3000 http://www.likasoft.com/
Размер индекса 24,83 гб.
Время создания 6 часов 46 мин.

Слайд 32

Google Desktop
Размер индекса ~ 5 гб
Время создания 31 час 25 минуты

Слайд 33

Выводы
Эксперименты показывают высокую скорость создания CLB индекса.

Слайд 34

Эксперименты
Общий объем 86 гб, 400 049 файла
Все файлы были в кодировке Windows-1251

(CP1251).
Язык документов – русский.
Все файлы представляли собой обычный текст.

Слайд 35

Описание конфигурации оборудования
Процессор: Intel Core 2 Duo E6700, 2.66 GHz, кэш: L1

Data – 2 x 32 кб, L1 inst. 2 x 32 кб, L2 – 4096 кб.
Оперативная память: 4 гб, DDR2 800.
Жесткий диск: Seagate Barracuda 7200.10, 7200 RPM, кэш 16 мб., объем 750 гб.
FSB 1066 MHz.

Слайд 36

Создание CLB индекса
Размер индекса 56,5 гб.
Время создания 4 часа 28 минут.
Использовался размер

блока 64 КБ.

Слайд 37

Инвертированные файлы
Размер индекса 117,7 гб.
Время создания 20 часов 6 минут.

Слайд 38

Архивариус 3000 http://www.likasoft.com/
Размер индекса 62,65 гб.
Время создания 6 часов 10 минут.

Слайд 39

Инструментарий
Автором разработана библиотека для создания индексов и поиска в текстах, в которой

реализована описанная структура данных и алгоритмы.

Слайд 40

Форматы файлов
Библиотека может индексировать файлы в различных форматах, например RTF, PDF, CHM,

HTML, DJVU и кодировках, например UNICODE, UTF8, CP1251, ASCII, KOI8.

Слайд 41

Архивы
Поддерживается обработка архивов форматов ZIP, CAB, RAR, 7Z, ARJ, TAR, и др.

Слайд 42

Архитектура
Библиотека реализована в виде COM сервера для операционных систем Windows
Написана на C++.

Слайд 43

Архитектура
Ядро, осуществляет создание индекса и поиск.
Модуль поддержки морфологии
Модуль распознавания кодировки. При

распознавании кодировки также учитывается морфология.

Слайд 44

Форматы файлов
Модуль поддержки форматов файлов. Поддержка форматов файлов и архивов реализована с

помощью подключаемых дополнительных модулей, которые могут быть реализованы в виде динамических библиотек или написаны на Java. Модуль поддержки форматов файлов реализован в виде отдельного процесса для повышения надежности системы.

Слайд 45

Архитектура
Модуль атрибутов документов, для сохранения описания документов.
Модуль репозитария, для сохранения текстов документов.

Создается для того, чтобы при поиске можно было быстро получать фрагмент текста, содержащий найденную фразу.

Слайд 46

Архитектура
Модуль COM осуществляет доступ к остальным модулям извне с помощью COM, что

позволяет использовать библиотеку в различных языках программирования.

Слайд 47

Системные требования
Реализованные алгоритмы достаточно нетребовательные к ресурсам компьютера. Для создания индекса достаточно

иметь 300–400 мегабайт свободной оперативной памяти.
Автором проводились эксперименты по созданию индексов на машине с оперативной памятью размером 512 мб.

Слайд 48

SSD
Эффективность описанных в данном алгоритмов значительно возрастет с применением дисков SSD (Solid-state

drive), за счет более быстрого чтения блоков малого размера. При этом эффективность таких структур данных как инвертированные файлы возрастет менее, т. к. для добавления в инвертированный файл информации его все равно придется практически переписать целиком.

Создание легко обновляемых текстовых индексов

Содержание

ЗадачаПоиск слов и фраз в большой текстовой коллекции

Инвертированные файлыЧасто используются для поискаСложно добавлять новые данные

Инвертированные файлы Для каждой словоформы сохраняется информация о том, в каких документах и

Пример информации о вхождении 1) Номер (ID) файла2) Позиция словоформы в файле (порядковый

Задача Нужно сделать индекс, который бы позволял легко добавлять в него новые данные

CLB-деревоB-дерево, в нем хранятся словаИнформация о вхождениях слова сохраняется в списке блоков

Морфология Морфологический анализатор Для каждой словоформы из словаря выдается набор базовых форм. Базовых форм ~

Кэширование Храним в B-дереве не словоформы, а базовые формы. Можем хранить в памяти

Плюсы Можно быстро добавлять новые данные. Информация о новых вхождениях слова добавляется в

Минусы1) Фрагментация – блоки могут располагаться в разных местах2) Неэффективное использование дисковой

Проблема фрагментации Пусть в списке блоков k блоков. Выберем число m = 2C Разделим весь

ПримерУ нас есть 25 блоков и m = 8. Разбиваем 25 блоков

Проблема фрагментацииИнформация о вхождениях слова сохраняется в списке блоков

АлгоритмПусть есть k заполненных подряд расположенных блоков B1, …, Bk, в частности

k = 2x, x < cищем 2k подряд располагающихся блоков N1, …

k = 2x, x = cЗаканчиваем текущую группу блоков, в ней уже

Остальные случаиИспользуем зарезервированные ранее блоки (в случае k = 2x, x <

Эффективное использование дисковой памятиB-дерево, в нем хранятся словаИнформация о вхождениях слова сохраняется

Эффективное использование памяти Все базовые формы разделяются на n групп. Используем n временных

Сравнение с существующими разработками Общий объем 35,2 гб, 191 074 файлаВсе файлы были

Описание конфигурации оборудования Процессор: Intel Core 2 Duo E6700, 2.66 GHz, кэш:

Создание индексаСоздание инвертированного файла: время 9 часов, размер 40 гб.Создание CLB индекса:

Добавление в индекс одного файла среднего размера Время добавления одного документа 1,2

Добавление в индекс одного файла малого размера Время добавления одного документа размером

Время поискаВремя поиска в инвертированном файле и CLB-индексе практически совпадают.

ВыводыПроведенные эксперименты показывают высокую эффективность CLB индекса при добавлении в него данных

Сравнение с существующими разработками Процессор: Intel Pentium 4, 3.0 GHz, кэш: L1

Создание CLB индекса Размер индекса 26,2 гб.Время создания 5 часов 49 мин.Использовался

SearchInform Desktop (http://www.searchinform.com)Размер индекса 16,15 гб.Время создания 9 часов.

Архивариус 3000 http://www.likasoft.com/ Размер индекса 24,83 гб.Время создания 6 часов 46 мин.

Google DesktopРазмер индекса ~ 5 гбВремя создания 31 час 25 минуты

Выводы Эксперименты показывают высокую скорость создания CLB индекса.

ЭкспериментыОбщий объем 86 гб, 400 049 файлаВсе файлы были в кодировке Windows-1251

Описание конфигурации оборудованияПроцессор: Intel Core 2 Duo E6700, 2.66 GHz, кэш: L1

Создание CLB индексаРазмер индекса 56,5 гб.Время создания 4 часа 28 минут.Использовался размер

Инвертированные файлыРазмер индекса 117,7 гб.Время создания 20 часов 6 минут.

Архивариус 3000 http://www.likasoft.com/Размер индекса 62,65 гб.Время создания 6 часов 10 минут.

ИнструментарийАвтором разработана библиотека для создания индексов и поиска в текстах, в которой

Форматы файловБиблиотека может индексировать файлы в различных форматах, например RTF, PDF, CHM,

АрхивыПоддерживается обработка архивов форматов ZIP, CAB, RAR, 7Z, ARJ, TAR, и др.

АрхитектураБиблиотека реализована в виде COM сервера для операционных систем WindowsНаписана на C++.

АрхитектураЯдро, осуществляет создание индекса и поиск.Модуль поддержки морфологии Модуль распознавания кодировки. При

Форматы файловМодуль поддержки форматов файлов. Поддержка форматов файлов и архивов реализована с

АрхитектураМодуль атрибутов документов, для сохранения описания документов.Модуль репозитария, для сохранения текстов документов.

АрхитектураМодуль COM осуществляет доступ к остальным модулям извне с помощью COM, что

Системные требованияРеализованные алгоритмы достаточно нетребовательные к ресурсам компьютера. Для создания индекса достаточно

SSDЭффективность описанных в данном алгоритмов значительно возрастет с применением дисков SSD (Solid-state

Похожие презентации