Прототип автоматизированной системы поиска дубликатов документов для цифровых научных библиотек

Содержание

Слайд 2

Проблема

Проблема проверки уникальности научных документов и нахождения их дубликатов в контексте электронных

Проблема Проблема проверки уникальности научных документов и нахождения их дубликатов в контексте
научных библиотек

Новый документ
Проверка на дубликаты
Добавление/отклонение документа

Рис. 1. Добавление нового документа

Слайд 3

Цель и задачи

Цель: разработка сервиса поиска дубликатов в электронных научных библиотеках.
Задачи:
Исследовать

Цель и задачи Цель: разработка сервиса поиска дубликатов в электронных научных библиотеках.
способы организации данных в электронных научных библиотеках
Рассмотреть существующие алгоритмы поиска нечетких дубликатов текста и определить наиболее подходящий данной задаче
Разработать систему поиска дубликатов в электронных научных библиотеках

Слайд 4

Существующие решения

Алгоритм “шинглов”:
Физическое представление данных
Точность ~91%
Неустойчив к мелким изменениям
Неустойчив к перестановкам слов
Отсутствие

Существующие решения Алгоритм “шинглов”: Физическое представление данных Точность ~91% Неустойчив к мелким
возможности добавления документов в базу данных сервиса

Слайд 5

Предлагаемое решение

Алгоритм TF–RIDF:
Точность ~95%
Учитывает статистику всей коллекции
Устойчив к мелким изменениям
Устойчив к перестановкам

Предлагаемое решение Алгоритм TF–RIDF: Точность ~95% Учитывает статистику всей коллекции Устойчив к
слов
Сбор данных:
Интерактивная индексация библиотек
Добавление/расширение данных

Слайд 6

Серверная часть:
Язык программирования – Java
Сервер – Spring Boot
Многопоточность – Concurrent, Guava
Агрегация данных

Серверная часть: Язык программирования – Java Сервер – Spring Boot Многопоточность –
– Stream API
Доступ к базе данных – Spring–jdbc
Клиентская часть:
Разметка – HTML
Скрипты – Javascript
База данных:
СУБД – PostgreSQL

Технологии

Рис. 2. Технологии

Слайд 7

Результаты (I часть)

Индексация документов электронных научных библиотек:
Рекурсивный обход ссылок
Диапазон ссылок

Рис. 4. Очередь

Результаты (I часть) Индексация документов электронных научных библиотек: Рекурсивный обход ссылок Диапазон
индексации

Рис. 3. Интерфейс индексации библиотек

Слайд 8

Результаты (II часть)

Проверка документов на наличие дубликатов:
Сбор слов
Вычисление значимости слов
Сравнение контрольных сумм

Рис.

Результаты (II часть) Проверка документов на наличие дубликатов: Сбор слов Вычисление значимости
5. Интерфейс проверки документа

Рис. 6. Дубликат найден

Рис. 7. Дубликатов не найдено

Слайд 9

Производительность

Диаграмма 1. Тест производительности

Производительность Диаграмма 1. Тест производительности

Слайд 10

Выводы

Свойства системы:
Алгоритм TF–RIDF
Индексация электронных научных библиотек
Быстрая проверка на дубликаты ~200ms

Выводы Свойства системы: Алгоритм TF–RIDF Индексация электронных научных библиотек Быстрая проверка на дубликаты ~200ms