Содержание
- 2. Проблема Проблема проверки уникальности научных документов и нахождения их дубликатов в контексте электронных научных библиотек Новый
- 3. Цель и задачи Цель: разработка сервиса поиска дубликатов в электронных научных библиотеках. Задачи: Исследовать способы организации
- 4. Существующие решения Алгоритм “шинглов”: Физическое представление данных Точность ~91% Неустойчив к мелким изменениям Неустойчив к перестановкам
- 5. Предлагаемое решение Алгоритм TF–RIDF: Точность ~95% Учитывает статистику всей коллекции Устойчив к мелким изменениям Устойчив к
- 6. Серверная часть: Язык программирования – Java Сервер – Spring Boot Многопоточность – Concurrent, Guava Агрегация данных
- 7. Результаты (I часть) Индексация документов электронных научных библиотек: Рекурсивный обход ссылок Диапазон ссылок Рис. 4. Очередь
- 8. Результаты (II часть) Проверка документов на наличие дубликатов: Сбор слов Вычисление значимости слов Сравнение контрольных сумм
- 9. Производительность Диаграмма 1. Тест производительности
- 10. Выводы Свойства системы: Алгоритм TF–RIDF Индексация электронных научных библиотек Быстрая проверка на дубликаты ~200ms
- 12. Скачать презентацию