Содержание
- 2. Проблема Проблема проверки уникальности научных документов и нахождения их дубликатов в контексте электронных научных библиотек Новый
- 3. Цель и задачи Цель: разработка сервиса поиска дубликатов в электронных научных библиотеках. Задачи: Исследовать способы организации
- 4. Существующие решения Алгоритм “шинглов”: Физическое представление данных Точность ~91% Неустойчив к мелким изменениям Неустойчив к перестановкам
- 5. Предлагаемое решение Алгоритм TF–RIDF: Точность ~95% Учитывает статистику всей коллекции Устойчив к мелким изменениям Устойчив к
- 6. Серверная часть: Язык программирования – Java Сервер – Spring Boot Многопоточность – Concurrent, Guava Агрегация данных
- 7. Результаты (I часть) Индексация документов электронных научных библиотек: Рекурсивный обход ссылок Диапазон ссылок Рис. 4. Очередь
- 8. Результаты (II часть) Проверка документов на наличие дубликатов: Сбор слов Вычисление значимости слов Сравнение контрольных сумм
- 9. Производительность Диаграмма 1. Тест производительности
- 10. Выводы Свойства системы: Алгоритм TF–RIDF Индексация электронных научных библиотек Быстрая проверка на дубликаты ~200ms
- 12. Скачать презентацию









Программа Trello и MalMath
Защита от сетевых атак
Табличный процессор Microsoft Excel
Разработка раздела, посвященного ТЭО дипломного проекта
Доставка именных карт. Даты cut-off
Общий вид рабочего окна (все поезда в графике по кругу)
Диаграмма последовательности действий
Lorem ipsum dolor sit amet, consectetuer adipiscing elit
Базы данных. Системы управления базами данных (СУБД) MS Access
Создание графических примитивов в графическом редакторе
Реализация алгоритмов в среде программирования. Часть 2. Программирование на VBA
Русские Instagram-маски. Команда вселенная
Кодирование текстовой информации
Создание веб-сайтов
Порты ввода-вывода
Проект Пульс. Оперативный мониторинг различных сфер и его наглядная визуализация для центров принятия решений
ec348dc740ecdcff55791b0cb87be4c8
Основные принципы организации СС
Разработка графических окон в python. Компьютерный практикум
Пересечение множеств
Компьютерная этика (киберэтика)
Comunio. Онлайн футбольный фэнтези-менеджер
Мультимедиа
Полиграфический дизайн текст и изображение
Компьютерные азы
Распознавание информационных вирусов, VIII фестиваль ХС. Базовая теория
CSS. Понятие класса. Урок 13
Построение таблицы истинности сложного высказывания