Содержание
- 2. План презентации Методы автоматической рубрикации текстов Проблемы ручной и автоматической рубрикации Наши исследования Лаборатория анализа информационных
- 3. Рубрикация текстов Классификация/рубрикация информации - отнесение порции информации к одной или нескольким категориям из конечного множества
- 4. Примеры рубрикаторов Каталог Интернет-сайтов: Open Directory Project – dmoz.org 4,830,584 sites, 75,151 editors, over 590,000 categories
- 5. Каталог Яндекс - Фасетная классификация Тематическая Иерархический классификатор, имеет порядка 600 значений и описывает предметную область
- 6. Рубрикатор нормативно-правовых актов Президентский классификатор (Указ №511 15.03.2000) Иерархия рубрик - 1168 рубрик Все НПА рубрицируются
- 7. Коллекция и рубрикатор Reuters для автоматического рубрицирования Более 21 тысячи информационных сообщений из области биржевой торговли
- 8. Методы рубрицирования текстов Ручное рубрицирование Полуавтоматическое Автоматическое Инженерный подход (=методы, основанные на знаниях, экспертные методы) Методы
- 9. Методы оценки эффективности автоматического рубрицирования Основа: сравнение результатов автоматического и ручного рубрицирования
- 10. Ручное рубрицирование Высокая точность рубрицирования Обычно процент документов, в которых проставлена явно неправильная рубрика, чрезвычайно мал
- 11. Субъективизм экспертов Совпадение при ручной рубрикации между разными экспертами 60%
- 12. Инженерный подход Основное предположение: рубрикатор создается осмысленно, содержание рубрики можно выразить ограниченным количеством понятий в виде
- 13. Reuters: пример описания рубрики if (wheat & farm) or (wheat & commodity) or (bushels & export)
- 14. Проблемы методов, основанных на знаниях Содержание рубрики сложнее, чем это выглядит по формулировке Лексическая многозначность Ложная
- 15. Ошибки: появление лишних рубрик (1) Содержание рубрики сложнее, чем это выглядит по формулировке Например, к рубрике
- 16. Ошибки: появление лишних рубрик (2) Лексическая многозначность - текст может быть отнесен не к той рубрике
- 17. Ошибки: появление лишних рубрик (3) Нестандартный контекст употребления терминов. Например, следующий текст может быть отнесен к
- 18. Ошибки: пропуск нужной рубрики Правильная рубрика не определена, поскольку в тексте упомянуты слова, не описанные в
- 19. Методы машинного обучения в задачах рубрикации Имеется коллекция отрубрицированных людьми текстов.=> Для каждой рубрики имеется множество
- 20. Положительные и отрицательные примеры: как лучше отделить
- 21. Векторная модель: основные этапы Задача: преобразовать множество текстов в векторы пространства Rn Пословная модель – bag
- 22. Вычисление весов слов Частота встречаемости слова в документе Количество документов коллекции, содержащих данное слово Длина документа,
- 23. TF*IDF Наиболее общепринятый способ вычисления веса терма: tf • idf tf – частотность терма в документе
- 24. Формула tf•idf [Okapi BM25 – cir.ru] Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock-Beaulieu, and
- 25. Отсечение по центрам тяжести
- 26. Отсечение по ближайшим соседям (kNN)
- 27. Оптимальный линейный сепаратор SVM (Support Vector Machines) Максимизация расстояния между двумя параллельными поддерживающими плоскостями
- 28. Reuters-21578, применяем SVM [1] Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant
- 29. An Analysis of the Relative Hardness of Reuters-21578 Subsets Franca Debole and Fabrizio Sebastiani. //In proc.
- 30. Сложные задачи автоматической рубрикации текстов: проблемы машинного обучения размер рубрикатора больше 300-500 рубрик, обычно со сложной
- 31. Множество примеров отсутствует и не может быть создано в короткое время Российский социологический архив (www.socialpolicy.ru) Данные
- 32. Множество примеров существует, но отсутствовали требования к качеству Международное научное сообщество RePec (www.repec.org (www.repec.org), SocioNet (www.socionet.ru)
- 33. Множество примеров противоречиво и недостаточно для большинства рубрик (очень большие классификаторы) Российские правовые документы Президентский классификатор
- 34. Мало отличающиеся документы имеют разные наборы рубрик: как обучаться?
- 35. Множество примеров для обучения из другой коллекции Примеры: документы федерального уровня Проблема: рубрицирование 600,000 региональных документов
- 36. Два основных подхода к автоматическому рубрицированию Методы, основанные на знаниях («инженерный» подход) высокая эффективность «прозрачность» получаемых
- 37. Основные направления исследований по автоматической рубрикации Лаборатория (ЛАИР) НИВЦ МГУ УИС РОССИЯ (www.cir.ru) - 1 млн.
- 38. Технологии автоматической классификации на основе УИС РОССИЯ По общему тематическому правовому классификатору Центральной избирательной комиссии РФ
- 39. Технология автоматического рубрицирования Опора на знания, описанные в Общественно-политическом Тезаурусе Представление рубрики в виде булевской формулы
- 40. Схема описания рубрики Рубрика Альтернатива1 Альтернатива2 У11 У12 У13 У21 Условие22 ИЛИ И И И +
- 41. Представление смысла рубрики опорными понятиями
- 42. Расширенное представление рубрики понятиями тезауруса
- 43. Алгоритм строит формулы вида: где — множество документов, содержащих некоторое понятие тезауруса. Конъюнкции, составляющие формулу, имеют
- 44. РОМИП’2007 дорожка классификации web-страниц Рубрикатор: DMOZ, 247 рубрик 2го уровня Top/World/Russian/*/* Коллекция обучения «DMOZ» 300 000
- 45. Машинное обучение: метод ПФА Рубрика 135 «Боевые искусства» Recall = 0.52 Precision = 0.88 FMeasure =
- 46. Инженерный подход (8 чел*час): пример простого описания рубрики Рубрика 135 «Боевые искусства» (F1-мера [OR] = 0.97,
- 47. РОМИП2007: классификация веб-страниц
- 49. Скачать презентацию