Содержание
- 2. Постановка задачи Задача: в автоматическом режиме из текста статьи, представленного в виде PDF-файла, извлечь метаданные и
- 3. Рассматриваемая задача актуальна для построения графа взаимного цитирования. Автоматическое построение графа взаимного цитирования состоит из двух
- 4. Особенности задачи Авторы не снабжают тексты статей метаинформацией в удобной для автоматического разбора форме => требуется
- 5. Особенности задачи (2) Извлечение библиографических ссылок Самусев С. Шамина О. ВМиК МГУ {sam,sincere}@lvk.cs.msu.su Аннотация В данной
- 6. Существующие подходы Методы, применявшиеся для англоязычных статей Методы, основанные на правилах: Метод, основанный на регулярных выражениях
- 7. Цель работы Цель работы: исследование применимости существующих методов, разработанных для англоязычных статей, для извлечения метаинформации и
- 8. Этапы решения задачи Этап 1: преобразование текста статьи в формате PDF в промежуточное текстовое представление с
- 9. Метод, основанный на регулярных выражениях Из промежуточного представления текста статьи извлекается первая страница или текст до
- 10. Методы машинного обучения: предобработка Упрощенный вариант метода Rule-Based Word Clustering (Giles, 2005): Слова в тексте статьи
- 11. Методы машинного обучения: предобработка (2) Использование интеллектуальных сетевых роботов для построения тематических коллекций Романова E.В., Некрестьянов
- 12. Методы машинного обучения: метод, основанный на СММ Состояния соответствуют элементам метаинформации. Наблюдаемая цепочка – последовательность признаков
- 13. Методы машинного обучения: метод , основанный на классификации Задача извлечения метаинформации рассматривается как задача классификации строк
- 14. Методы машинного обучения: метод, основанный на классификации (2) Осуществляется второй шаг классификации - контекстно-зависимая классификация: Строка
- 15. Методы машинного обучения: метод, основанный на классификации (3) 95% строк принадлежат к одному классу, остальные –
- 16. Экспериментальное исследование Цель: сравнение точности методов. Наборы данных: - англоязычный (McCallum, 935 заголовков, 500 библиографических ссылок).
- 17. Экспериментальное исследование
- 18. Выводы Экспериментальное исследование показало, что все три метода обеспечивают точность порядка 70-80%, что является пригодным для
- 19. Планы дальнейшего развития Повышение точности рассмотренных методов машинного обучения за счет учета разметки. Использование условных случайных
- 21. Скачать презентацию