Прототип автоматизированной системы поиска дубликатов документов для цифровых научных библиотек

Март 12, 2021

Главная
Информатика
Прототип автоматизированной системы поиска дубликатов документов для цифровых научных библиотек

Содержание

2. Проблема Проблема проверки уникальности научных документов и нахождения их дубликатов в контексте электронных научных библиотек Новый
3. Цель и задачи Цель: разработка сервиса поиска дубликатов в электронных научных библиотеках. Задачи: Исследовать способы организации
4. Существующие решения Алгоритм “шинглов”: Физическое представление данных Точность ~91% Неустойчив к мелким изменениям Неустойчив к перестановкам
5. Предлагаемое решение Алгоритм TF–RIDF: Точность ~95% Учитывает статистику всей коллекции Устойчив к мелким изменениям Устойчив к
6. Серверная часть: Язык программирования – Java Сервер – Spring Boot Многопоточность – Concurrent, Guava Агрегация данных
7. Результаты (I часть) Индексация документов электронных научных библиотек: Рекурсивный обход ссылок Диапазон ссылок Рис. 4. Очередь
8. Результаты (II часть) Проверка документов на наличие дубликатов: Сбор слов Вычисление значимости слов Сравнение контрольных сумм
9. Производительность Диаграмма 1. Тест производительности
10. Выводы Свойства системы: Алгоритм TF–RIDF Индексация электронных научных библиотек Быстрая проверка на дубликаты ~200ms
12. Скачать презентацию

Слайд 2

Проблема
Проблема проверки уникальности научных документов и нахождения их дубликатов в контексте электронных

Проблема Проблема проверки уникальности научных документов и нахождения их дубликатов в контексте

научных библиотек

Новый документ
Проверка на дубликаты
Добавление/отклонение документа

Рис. 1. Добавление нового документа

Слайд 3

Цель и задачи
Цель: разработка сервиса поиска дубликатов в электронных научных библиотеках.
Задачи:
Исследовать

Цель и задачи Цель: разработка сервиса поиска дубликатов в электронных научных библиотеках.

способы организации данных в электронных научных библиотеках
Рассмотреть существующие алгоритмы поиска нечетких дубликатов текста и определить наиболее подходящий данной задаче
Разработать систему поиска дубликатов в электронных научных библиотеках

Слайд 4

Существующие решения
Алгоритм “шинглов”:
Физическое представление данных
Точность ~91%
Неустойчив к мелким изменениям
Неустойчив к перестановкам слов
Отсутствие

Существующие решения Алгоритм “шинглов”: Физическое представление данных Точность ~91% Неустойчив к мелким

возможности добавления документов в базу данных сервиса

Слайд 5

Предлагаемое решение
Алгоритм TF–RIDF:
Точность ~95%
Учитывает статистику всей коллекции
Устойчив к мелким изменениям
Устойчив к перестановкам

Предлагаемое решение Алгоритм TF–RIDF: Точность ~95% Учитывает статистику всей коллекции Устойчив к

слов
Сбор данных:
Интерактивная индексация библиотек
Добавление/расширение данных

Слайд 6

Серверная часть:
Язык программирования – Java
Сервер – Spring Boot
Многопоточность – Concurrent, Guava
Агрегация данных

Серверная часть: Язык программирования – Java Сервер – Spring Boot Многопоточность –

– Stream API
Доступ к базе данных – Spring–jdbc
Клиентская часть:
Разметка – HTML
Скрипты – Javascript
База данных:
СУБД – PostgreSQL

Технологии

Рис. 2. Технологии

Слайд 7

Результаты (I часть)
Индексация документов электронных научных библиотек:
Рекурсивный обход ссылок
Диапазон ссылок
Рис. 4. Очередь

Результаты (I часть) Индексация документов электронных научных библиотек: Рекурсивный обход ссылок Диапазон

индексации

Рис. 3. Интерфейс индексации библиотек

Слайд 8

Результаты (II часть)
Проверка документов на наличие дубликатов:
Сбор слов
Вычисление значимости слов
Сравнение контрольных сумм
Рис.

Результаты (II часть) Проверка документов на наличие дубликатов: Сбор слов Вычисление значимости

5. Интерфейс проверки документа

Рис. 6. Дубликат найден

Рис. 7. Дубликатов не найдено

Слайд 9

Производительность
Диаграмма 1. Тест производительности

Производительность Диаграмма 1. Тест производительности

Слайд 10

Выводы
Свойства системы:
Алгоритм TF–RIDF
Индексация электронных научных библиотек
Быстрая проверка на дубликаты ~200ms

Выводы Свойства системы: Алгоритм TF–RIDF Индексация электронных научных библиотек Быстрая проверка на дубликаты ~200ms