Слайд 32)Установка RapidMiner. Установка компонентов textMining
https://rapidminer.com/get-started/
Слайд 43) Использование компоненты- Process Dociment from files и различных фильтров (минимум-3).
Слайд 64) Проведение кластеризации документов
Слайд 85) Численная оценка качества алгоритма
(точность, полнота, F-мера)
Слайд 9Точность и полнота
TP— истино-положительное решение;
TN — истино-отрицательное решение;
FP — ложно-положительное решение;
FN — ложно-отрицательное решение.
Слайд 10Пример (наглядность)
TP
FP
FN
Результат метода
Слайд 12F-мера
Где β принимает значения в диапазоне 0 <β <1, если Вы хотите
отдать приоритет точности,
а при β> 1 приоритет отдается полноте.
При β=1 формула сводится к предыдущей и вы получаете сбалансированную F-меру (также ее называют F1)