Содержание
- 2. План презентации Методы автоматической рубрикации текстов Проблемы ручной и автоматической рубрикации Наши исследования Лаборатория анализа информационных
- 3. Рубрикация текстов Классификация/рубрикация информации - отнесение порции информации к одной или нескольким категориям из конечного множества
- 4. Примеры рубрикаторов Каталог Интернет-сайтов: Open Directory Project – dmoz.org 4,830,584 sites, 75,151 editors, over 590,000 categories
- 5. Каталог Яндекс - Фасетная классификация Тематическая Иерархический классификатор, имеет порядка 600 значений и описывает предметную область
- 6. Рубрикатор нормативно-правовых актов Президентский классификатор (Указ №511 15.03.2000) Иерархия рубрик - 1168 рубрик Все НПА рубрицируются
- 7. Коллекция и рубрикатор Reuters для автоматического рубрицирования Более 21 тысячи информационных сообщений из области биржевой торговли
- 8. Методы рубрицирования текстов Ручное рубрицирование Полуавтоматическое Автоматическое Инженерный подход (=методы, основанные на знаниях, экспертные методы) Методы
- 9. Методы оценки эффективности автоматического рубрицирования Основа: сравнение результатов автоматического и ручного рубрицирования
- 10. Ручное рубрицирование Высокая точность рубрицирования Обычно процент документов, в которых проставлена явно неправильная рубрика, чрезвычайно мал
- 11. Субъективизм экспертов Совпадение при ручной рубрикации между разными экспертами 60%
- 12. Инженерный подход Основное предположение: рубрикатор создается осмысленно, содержание рубрики можно выразить ограниченным количеством понятий в виде
- 13. Reuters: пример описания рубрики if (wheat & farm) or (wheat & commodity) or (bushels & export)
- 14. Проблемы методов, основанных на знаниях Содержание рубрики сложнее, чем это выглядит по формулировке Лексическая многозначность Ложная
- 15. Ошибки: появление лишних рубрик (1) Содержание рубрики сложнее, чем это выглядит по формулировке Например, к рубрике
- 16. Ошибки: появление лишних рубрик (2) Лексическая многозначность - текст может быть отнесен не к той рубрике
- 17. Ошибки: появление лишних рубрик (3) Нестандартный контекст употребления терминов. Например, следующий текст может быть отнесен к
- 18. Ошибки: пропуск нужной рубрики Правильная рубрика не определена, поскольку в тексте упомянуты слова, не описанные в
- 19. Методы машинного обучения в задачах рубрикации Имеется коллекция отрубрицированных людьми текстов.=> Для каждой рубрики имеется множество
- 20. Положительные и отрицательные примеры: как лучше отделить
- 21. Векторная модель: основные этапы Задача: преобразовать множество текстов в векторы пространства Rn Пословная модель – bag
- 22. Вычисление весов слов Частота встречаемости слова в документе Количество документов коллекции, содержащих данное слово Длина документа,
- 23. TF*IDF Наиболее общепринятый способ вычисления веса терма: tf • idf tf – частотность терма в документе
- 24. Формула tf•idf [Okapi BM25 – cir.ru] Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock-Beaulieu, and
- 25. Отсечение по центрам тяжести
- 26. Отсечение по ближайшим соседям (kNN)
- 27. Оптимальный линейный сепаратор SVM (Support Vector Machines) Максимизация расстояния между двумя параллельными поддерживающими плоскостями
- 28. Reuters-21578, применяем SVM [1] Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant
- 29. An Analysis of the Relative Hardness of Reuters-21578 Subsets Franca Debole and Fabrizio Sebastiani. //In proc.
- 30. Сложные задачи автоматической рубрикации текстов: проблемы машинного обучения размер рубрикатора больше 300-500 рубрик, обычно со сложной
- 31. Множество примеров отсутствует и не может быть создано в короткое время Российский социологический архив (www.socialpolicy.ru) Данные
- 32. Множество примеров существует, но отсутствовали требования к качеству Международное научное сообщество RePec (www.repec.org (www.repec.org), SocioNet (www.socionet.ru)
- 33. Множество примеров противоречиво и недостаточно для большинства рубрик (очень большие классификаторы) Российские правовые документы Президентский классификатор
- 34. Мало отличающиеся документы имеют разные наборы рубрик: как обучаться?
- 35. Множество примеров для обучения из другой коллекции Примеры: документы федерального уровня Проблема: рубрицирование 600,000 региональных документов
- 36. Два основных подхода к автоматическому рубрицированию Методы, основанные на знаниях («инженерный» подход) высокая эффективность «прозрачность» получаемых
- 37. Основные направления исследований по автоматической рубрикации Лаборатория (ЛАИР) НИВЦ МГУ УИС РОССИЯ (www.cir.ru) - 1 млн.
- 38. Технологии автоматической классификации на основе УИС РОССИЯ По общему тематическому правовому классификатору Центральной избирательной комиссии РФ
- 39. Технология автоматического рубрицирования Опора на знания, описанные в Общественно-политическом Тезаурусе Представление рубрики в виде булевской формулы
- 40. Схема описания рубрики Рубрика Альтернатива1 Альтернатива2 У11 У12 У13 У21 Условие22 ИЛИ И И И +
- 41. Представление смысла рубрики опорными понятиями
- 42. Расширенное представление рубрики понятиями тезауруса
- 43. Алгоритм строит формулы вида: где — множество документов, содержащих некоторое понятие тезауруса. Конъюнкции, составляющие формулу, имеют
- 44. РОМИП’2007 дорожка классификации web-страниц Рубрикатор: DMOZ, 247 рубрик 2го уровня Top/World/Russian/*/* Коллекция обучения «DMOZ» 300 000
- 45. Машинное обучение: метод ПФА Рубрика 135 «Боевые искусства» Recall = 0.52 Precision = 0.88 FMeasure =
- 46. Инженерный подход (8 чел*час): пример простого описания рубрики Рубрика 135 «Боевые искусства» (F1-мера [OR] = 0.97,
- 47. РОМИП2007: классификация веб-страниц
- 49. Скачать презентацию






















![Формула tf•idf [Okapi BM25 – cir.ru] Stephen E. Robertson, Steve Walker, Susan](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387720/slide-23.jpg)



![Reuters-21578, применяем SVM [1] Joachims T. Text Categorization with Support Vector Machines:](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/387720/slide-27.jpg)



















Сохранение психологического здоровья учащихся и учителей
Земля Earth
Поэма Лермонтова Демон в картинах Михаила Врубеля
Капсула культуры
VI школьная конференция исследовательских и проектных работ учащихся
Козьма Прутков
Обобщение знаний по теме Зарубежная Европа
Металлы в строительстве
Правонарушение и юридическая ответственность
Виды структур управления
Презентация на тему Дикие животные. Детская энциклопедия
Спрос на товар. Статистика опроса потребителей
Страны Восточной Европы
Современная модель музыкального воспитания детей
Funny pancake day quiz
Рабочая документация классного руководителя
Классицизм Живопись
Рекомендации по написанию основной общеобразовательной программы дошкольного образовательного учреждения
Урок № 3. Линейная функция и ее график
Художественный ансамбль собора Святого Петра в Риме
WhirlpoolКондиционеры 2011
Модель гражданско-патриотического воспитания школьников в условиях сельской малокомплектной школы
Свойства прямоугольного параллелепипеда
Baby O детское очищающее молочко
Опыт Австралии по освоению месторождений полезных ископаемых на территориях с трудными природными условиями
Как написать эссе на немецком языке?
Виды энергий
1C:ПРЕДПРИЯТИЕ 8.0