Хорошевский В.Ф.(ВЦ РАН, Москва)

Февраль 18, 2021

Главная
Разное
Хорошевский В.Ф.(ВЦ РАН, Москва)

Содержание

2. План презентации Введение Цели и задачи работы Краткий обзор существующего положения Проекты извлечения информации из текстов
3. Введение Автоматическая обработка текстов на естественном языке (ЕЯ) - одно из приоритетных направлений в области новых
4. Введение Проект OntosMiner реализуется швейцарской фирмой Ontos AG и российской IT-фирмой АвиКомп Мотивация разработки: Создание многоплатформенного
5. Введение Проект OntosMiner Текущее состояние проекта: Разработан инструментарий для создания систем типа IE на базе среды
6. Введение Проект OntosMiner
7. Введение Проект OntosMiner
8. Цели и задачи настоящей работы Обсуждение метрик для оценки качества функционирования систем извлечения информации из текстов
9. Краткий обзор существующего положения Новые технологии и продукты (Прогноз Gartner Group 2005) Интеллектуальный анализ текстов Корпоративный
10. Проекты извлечения информации из текстов США Проект TIPSTER (1991 – 1998) Конференции TREC, MUC Программа TIDES
11. Проекты извлечения информации из текстов Проект TIPSTER – новые технологии обработки текстов (1991 – 1998). Управление
12. Проекты извлечения информации из текстов Программа TIDES (Translingual Information Detection, Extraction, and Summarization) – новая программа
13. Проекты извлечения информации из текстов Европа: Форум CLEF
14. Проекты извлечения информации из текстов Япония: Форум NTCIR
15. Проекты извлечения информации из текстов Россия: Инициатива РОМИП
16. Существующие метрики оценки систем типа IE Начало работам по метрикам оценки систем извлечения информации из текстов
17. Основные требования: Значения метрик должны быть максимальными для «хороших» систем и минимальными для «плохих», а их
18. Достоинства: Отвечают основному критерию, указанному выше и эффективно вычислимы, а также понятны эксперту. Недостатки: Не всегда
19. Предлагаемые метрики оценки систем типа IE Основные требования к системе метрик: Монотонность всех метрик и системы
20. Предлагаемые метрики оценки систем типа IE Параметры новой системы метрик Для существующих метрик оценки качества систем
21. Метрики оценки качества обработки объектов Оценка точности выделения объектов Правильно идентифицированным будем называть такой объект, который,
22. Метрики оценки качества обработки объектов Оценка точности выделения объектов Тогда, по аналогии, полностью неправильно идентифицированный объект
23. Метрики оценки качества обработки объектов Оценка точности выделения объектов Иначе обстоит дело с частично правильно идентифицированными
24. Метрики оценки качества обработки объектов Оценка точности выделения объектов где α(X) , ε(X) и δ(X) –
25. Метрики оценки качества обработки объектов Оценка точности выделения объектов С учетом введенных выше понятий
26. Метрики оценки качества обработки отношений Общие замечания Оценки точности выделения отношений, в отличие от объектов, в
27. Метрики оценки качества обработки отношений Оценка точности выделения отношений Правильно идентифицированным будем называть такое отношение, которое,
28. Метрики оценки качества обработки отношений Оценка точности выделения отношений Тогда полностью неправильно идентифицированное отношение можно фиксировать
29. Метрики оценки качества обработки отношений Оценка точности выделения отношений Для частично правильно идентифицированных отношений, как и
30. Метрики оценки качества обработки отношений Оценка точности выделения отношений – коэффициенты качества обработки всего отношения, его
31. Метрики оценки качества обработки отношений Оценка точности выделения отношений С учетом введенных выше понятий
32. Метрики оценки качества обработки объектов/отношений Оценка полноты выделения объектов/отношений В оценках полноты в классическом варианте участвуют
33. Интегральные оценки качества систем типа IE В предлагаемой системе метрик для точности и полноты введены по
34. Тестирование новой системы метрик Для тестирования новой системы метрик была проведена оценка качества процессора OntosMiner/Russian. Для
35. Тестирование новой системы метрик Для оценки результатов было решено использовать объекты типа Person, JobTitle/Title, Organization и
36. Тестирование новой системы метрик Классические оценки
37. Тестирование новой системы метрик Предлагаемые оценки (объекты)
38. Тестирование новой системы метрик Предлагаемые оценки (отношения)
39. Полученные результаты и дальнейшие исследования Анализ полученных результатов: Новые метрики более «чувствительны» к ошибкам в определении
41. Скачать презентацию

Слайд 2

План презентации
Введение
Цели и задачи работы
Краткий обзор существующего положения
Проекты извлечения информации из текстов
Существующие

метрики оценки систем типа IE
Предлагаемые метрики оценки систем типа IE
Основные требования к системе метрик
Метрики оценки качества обработки объектов
Метрики оценки качества обработки отношений
Интегральные оценки качества систем типа IE
Тестирование новой системы метрик
Полученные результаты и дальнейшие исследования

Слайд 3

Введение
Автоматическая обработка текстов на естественном языке (ЕЯ) - одно из приоритетных направлений

в области новых информационных технологий.
На современном этапе основное внимание исследователей и разработчиков практически значимых ЕЯ-систем сосредоточено на системах типа Multilingual Information Extraction (MIE), Summarization (Sum) и Question-Answering (QA).
=================================================
При этом одной из важнейших задач является оценка качества функционирования таких систем, без чего невозможны ни понимание достигнутых результатов, ни корректное сравнение разных систем.

Слайд 4

Введение
Проект OntosMiner
реализуется
швейцарской фирмой Ontos AG и российской IT-фирмой АвиКомп
Мотивация разработки:
Создание многоплатформенного

семейства мультиязыковых систем извлечения информации из ЕЯ-текстов.
Представление результатов обработки в виде когнитивных карт.
Использование результатов обработки в интеллектуальных аналитических системах.
Использование результатов обработки в интеллектуальных системах навигации и поиска.

Слайд 5

Введение
Проект OntosMiner
Текущее состояние проекта:
Разработан инструментарий для создания систем типа IE на базе

среды GATE.
Разработана среда LightOntos, обеспечивающая технологический цикл обработки текстов.
---------------------------------------------------------------------------------------------
Разработана система OntosMiner/English 3.0 для предметной области «Бизнес: Люди и Компании».
Разработана система OntosMiner/German для предметной области «Полицейские сводки».
Разработан прототип системы OntosMiner/French 1.0 для предметной области «Бизнес: Люди и Компании».
Разработано семейство систем OntosMiner/Russian для различных предметных областей.

Слайд 6

Введение
Проект OntosMiner

Слайд 7

Введение
Проект OntosMiner

Слайд 8

Цели и задачи настоящей работы
Обсуждение метрик для оценки качества функционирования систем извлечения

информации из текстов на естественном языке
Предложения по новой системе метрик.
Анализ опыта использования новой системы метрик для оценки качества IE-систем, разрабатываемых в рамках проекта OntosMiner.

Слайд 9

Краткий обзор существующего положения
Новые технологии и продукты (Прогноз Gartner Group 2005)
Интеллектуальный анализ

текстов

Корпоративный Семантический Веб

Слайд 10

Проекты извлечения информации из текстов
США
Проект TIPSTER (1991 – 1998)
Конференции TREC, MUC
Программа TIDES

(1999 – настоящее время)
Конференции MUC, DUC
Европа
Форум CLEF
Конференции CLIF
Япония
Форум NTCIR
Конференции NTCIR
Россия
Инициатива РОМИП (2003 – настоящее время)
Семинары РОМИП

Слайд 11

Проекты извлечения информации из текстов
Проект TIPSTER – новые технологии обработки текстов (1991

– 1998).
Управление проектом: DARPA, DoD, CIA в сотрудничестве с NIST.
Бюджет проекта: сотни млн. долл.
Основные направления:
Обнаружение специфической информации в тексте и излечение ее из текста.
Обнаружение документов, содержащих информацию, которая нужна пользователю (из потока текстов и\или хранилищ документов).
Получение реферата документа или коллекции документов.

Слайд 12

Проекты извлечения информации из текстов
Программа TIDES (Translingual Information Detection, Extraction, and Summarization)

– новая программа DARPA, специально ориентированная на получение новых результатов в технологиях реферирования документов и коллекций документов (1999 – настоящее время).
Основные направления:
Извлечение информации из многоязыковых коллекций документов.
Получение реферата/аннотации документа или коллекции документов.
Разработка вопрос-ответных систем.

Слайд 13

Проекты извлечения информации из текстов
Европа: Форум CLEF

Слайд 14

Проекты извлечения информации из текстов
Япония: Форум NTCIR

Слайд 15

Проекты извлечения информации из текстов
Россия: Инициатива РОМИП

Слайд 16

Существующие метрики оценки систем типа IE
Начало работам по метрикам оценки систем извлечения

информации из текстов было положено исследованиями, которые проводились в 1991-1998 г.г. в рамках проекта TIPSTER.
Хотя первые результаты в этом направлении были получены еще в классических работах Солтона по оценке систем информационного поиска.
И, тем не менее, применительно к задаче оценки систем типа IE, одним из важных результатов проекта TIPSTER было создание соответствующего стандарта de Facto.
Развитие работ по данному направлению в США происходило и происходит в рамках программы TIDES.
В Великобритании акцент аналогичных работ на метриках, учитывающих использование онтологий.
-----------------------------------------------------------------------------------------------------------
В настоящее время исследования и разработки по метрикам для оценки систем типа IE ведутся не только в США, Великобритании, но и в континентальной Европе, Японии и России, но сосредоточены эти работы, в основном, на задачах оценки систем информационного поиска, кластеризации и вопрос-ответных систем.

Слайд 17

Основные требования:
Значения метрик должны быть максимальными для «хороших» систем и минимальными для

«плохих», а их изменение должно быть монотонно.
Метрики должны быть понятными и интуитивно прозрачными, эффективно вычисляться и коррелировать с оценками эксперта-человека.
Метрики не должны допускать разные варианты интерпретации результатов.
Метрики проекта TIPSTER и программы TIDES:
точность (P) - к-во правильно идентифицированных объектов как процент от общего количества идентифицированных объектов,
полнота (R) – к-во правильно идентифицированных объектов как процент от общего количества правильных объектов,
качество (F-measure) - интегральная метрика, которая является взвешенной оценкой параметров точности и полноты.

Существующие метрики оценки систем типа IE

Слайд 18

Достоинства:
Отвечают основному критерию, указанному выше и эффективно вычислимы, а также понятны эксперту.
Недостатки:
Не

всегда коррелируют с мнением экспертов и допускают различные интерпретации результатов.
Ограниченность и неполнота. Оценивается качество выделения из текстов NE (например, объектов типа Person, Organization, Location и др.), но при этом не учитывают точность и полноту выделения артефактов, относящихся к этим NE (например, атрибутов типа JobTitle, Time и др.).
Нет хороших метрик для оценки качества выделения отношений между выделенными объектами, а если такие метрики используются, то они, по существу, «штрафуют» систему несколько раз за одну и ту же ошибку.
Не учитывается значимость компонент выделенных объектов и отношений в тех случаях, когда те имеют внутреннюю структуру.
-----------------------------------------------------------------------------------------------------------------------------------------------------------
Нужна новая система метрик!!!

Существующие метрики оценки систем типа IE

Слайд 19

Предлагаемые метрики оценки систем типа IE
Основные требования к системе метрик:
Монотонность всех метрик

и системы метрик в целом.
Сбалансированность всех метрик системы.
Понятность и интуитивная прозрачность отдельных метрик и системы метрик в целом для эксперта-человека.
Однозначность интерпретации результатов оценки.
Возможность интегральной оценки качества.
Эффективная вычислимость всех метрик и системы метрик в целом.
Адекватность текущему уровню теории и практики создания IE-систем и возможность обобщения в будущем.

Слайд 20

Предлагаемые метрики оценки систем типа IE
Параметры новой системы метрик
Для существующих метрик оценки

качества систем типа IE параметры их опираются на аннотации объектов (NEs). В качестве модели аннотаций в настоящее время, как правило, используется подход, принятый в проекте TIPSTER.
===================================================================
Представляется, что такой подход может с успехом использоваться и в новой системе метрик.
============================================================
Будем полагать, что аннотация представляется в формате, где явно специфицированы тип выделенного объекта (отношения) и его атрибуты, а также расположение аннотации в тексте относительно его начала (OffSets).
Тогда общая стуктура аннотации – следующая:
Attr1 = Value1; … Attrn = Valuen >
Для простоты будем считать, что значениями атрибутов могут быть элементарные типы данных (например, string, integer и т.п.) или их одномерные массивы.

Слайд 21

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
Правильно идентифицированным будем называть такой

объект, который, по мнению эксперта, зафиксирован в тексте правильно (правильны значения типа объекта и его OffSets) и все существенные атрибуты объекта тоже правильны (значения OffSets правильны, а имена атрибутов заполнены правильными значениями).
Таким образом,

Слайд 22

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
Тогда, по аналогии, полностью неправильно

идентифицированный объект фиксируется следующей формулой:

Слайд 23

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
Иначе обстоит дело с частично

правильно идентифицированными объектами, так как в этом случае необходимо не только фиксировать данный феномен, но и правильно оценить «тяжесть» допущенных ошибок.
Понятно, что объект X можно рассматривать как Partial лишь в том случае, если Type(X) = true. Тогда для фиксации феномена целесообразно использовать формулу вида:
где

Слайд 24

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
где
α(X) , ε(X) и δ(X)

– коэффициенты качества обработки всего объекта, атрибутов объекта и качества фиксации позиций объекта в тексте соответственно, а
γ и ω – веса атрибутов и Offsets, причем 0 ≤ γi ≤1 и
Σ γi = 1; 0 ≤ ωStartOffset ≤1; 0 ≤ ωEndOffset ≤1 и
(ωStartOffset + ωEndOffset ) = 1.

Слайд 25

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
С учетом введенных выше понятий

Слайд 26

Метрики оценки качества обработки отношений
Общие замечания
Оценки точности выделения отношений, в отличие от

объектов, в настоящее время практически не имеют устойчивых метрик.
На наш взгляд такая ситуация связана с тем, что
сами отношения лишь недавно стали обрабатываться в системах типа IE,
сложность их оценки значительно выше, чем сложность оценки объектов.
Ограничения на метрики для оценки качества выделения отношений:
В силу того, что эксперты устойчиво фиксируют наличие отношений, но расходятся во мнении об экспликации их позиций в тексте, исключим из соответствующих метрик параметры OffSets (заметим, что часто отношение «размыто» в рамках предложения и даже всего текста уже по самой природе ЕЯ).
При оценке качества выделения отношений необходимо учесть эффекты наведенных ошибок, связанных с неверной обработкой объектов и\или атрибутов, которые специфицируют его актанты (нельзя «наказывать» за одну и ту же ошибку несколько раз).
Так как качество выделения отношения зависит не только от качества выделения актантов, но и от качества его собственной обработки, необходимо в соответствующих метриках явно оценивать и ту, и другую составляющие.

Слайд 27

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
Правильно идентифицированным будем называть такое

отношение, которое, по мнению эксперта, присутствует в тексте и выделено системой, причем тип отношения между правильно выделенными обязательными актантами определен правильно и все существенные атрибуты отношения тоже правильны.
Т.е.

Слайд 28

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
Тогда полностью неправильно идентифицированное отношение

можно фиксировать следующей формулой:

Слайд 29

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
Для частично правильно идентифицированных отношений,

как и в случае объектов, необходимо правильно оценить «тяжесть» допущенных ошибок. Отношение R естественно оценивать как Partial, только если Type(R) = true. Тогда для фиксации феномена на верхнем уровне можно использовать формулу вида:

Слайд 30

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
– коэффициенты качества обработки всего

отношения, его атрибутов и качества выделения актантов отношения соответственно,
γ – веса атрибутов, причем 0 ≤ γi ≤1 и Σ γi = 1.

Слайд 31

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
С учетом введенных выше понятий

Слайд 32

Метрики оценки качества обработки объектов/отношений
Оценка полноты выделения объектов/отношений
В оценках полноты в классическом

варианте участвуют те же параметры, что и в оценках точности, за исключением параметра Miss, характеризующего количество пропущенных системой объектов и\или отношений. Поэтому, определив этот параметр, как
можно, по аналогии с оценками точности, предложить следующие оценки для полноты:

Слайд 33

Интегральные оценки качества систем типа IE
В предлагаемой системе метрик для точности и

полноты введены по две оценки – для объектов и отношений.
Для получения интегральной оценки точности целесообразно взвесить PNE и PR коэффициентом их относительной важности βp по аналогии с F-мерой:
Аналогично:
Тогда:

Слайд 34

Тестирование новой системы метрик
Для тестирования новой системы метрик была проведена оценка качества

процессора OntosMiner/Russian. Для этого был сформирован корпус документов, которые могут быть отнесены к предметной области, поддерживаемой этим процессором. Документы брались с русскоязычных новостных сайтов Интернет. Общий объем корпуса – 1882 док.
Типичный пример фрагмента текста из данного корпуса:
REGNUM, 09.02.2006 09:54
Комитет по экологии Госдумы будет настаивать на приостановке деятельности ПО "Маяк"
8 февраля в Государственной Думе состоялось заседание комитета по экологии. Основной темой повестки дня стало обсуждение экологических проблем, связанных с деятельностью ПО "Маяк", по результатам поездки в Озёрск, сообщили корреспонденту ИА REGNUM в пресс-центре Уральского Межрегионального координационного совета партии "Единая Россия"…
Справка: Федеральное государственное унитарное предприятие (ФПГУ) "Производственное объединение "Маяк" - предприятие ядерного оружейного комплекса России. Оно входит в состав Федерального агентства по атомной энергии Российской Федерации.
ПО "Маяк" - единственное в России предприятия по переработке отработанного ядерного топлива. На предприятии перерабатывают ядерные отходы с 1977 года. Комбинат обслуживает Кольскую, Нововоронежскую и Белоярскую атомные станции, а также перерабатывает ядерное топливо с атомных подводных лодок и из-за рубежа.

Слайд 35

Тестирование новой системы метрик
Для оценки результатов было решено использовать объекты типа Person,

JobTitle/Title, Organization и Location, а также отношения типа BeEmployeeOf и ConnectedWith.
Такой набор является практически стандартным для оценок на конференциях TREC/MUC/DUC и дает интересную информацию по сравнению классической и предложенной системы метрик.
Процедура оценки была организована следующим образом:
6 текстов, случайно выбранных из контрольного корпуса, тэгировали эксперты-лингвисты.
Результаты ручного тегирования сравнивались с результатами обработки этих же текстов системой OntosMiner/Russian.
Вычисления оценок производились по классическим формулам и формулам, предложенным в данной работе.
При этом, для простоты, предполагалось, что точность и полнота имеют одинаковые веса (β=1), а веса атрибутов и Offsets, если они используются при вычислениях, тоже одинаковы (γ=1/k, где k – кол-во атрибутов, и ωStartOffset = ωEndOffset = 1/2).

Слайд 36

Тестирование новой системы метрик
Классические оценки

Слайд 37

Тестирование новой системы метрик
Предлагаемые оценки (объекты)

Слайд 38

Тестирование новой системы метрик
Предлагаемые оценки (отношения)

Слайд 39

Полученные результаты и дальнейшие исследования
Анализ полученных результатов:
Новые метрики более «чувствительны» к

ошибкам в определении Offsets,
Новые метрики учитывают важность атрибутов и правильность их выделения.
Аналогичная ситуация имеет место и для оценок отношений.
Направления дальнейших исследований:
Необходим учет правильной и\или неправильной обработки орфосинонимических объектов.
Необходима разработка автоматической системы тестирования с удобными средствами настройки расчетных формул, развитыми средствами сбора статистики и визуализации полученных результатов.
Необходимо исследование поведения системы метрик в различных (в том числе пограничных) случаях.

Хорошевский В.Ф.(ВЦ РАН, Москва)

Содержание

План презентацииВведениеЦели и задачи работыКраткий обзор существующего положенияПроекты извлечения информации из текстовСуществующие

ВведениеАвтоматическая обработка текстов на естественном языке (ЕЯ) - одно из приоритетных направлений

ВведениеПроект OntosMinerреализуется швейцарской фирмой Ontos AG и российской IT-фирмой АвиКомпМотивация разработки:Создание многоплатформенного

ВведениеПроект OntosMinerТекущее состояние проекта:Разработан инструментарий для создания систем типа IE на базе

ВведениеПроект OntosMiner

ВведениеПроект OntosMiner

Цели и задачи настоящей работыОбсуждение метрик для оценки качества функционирования систем извлечения

Краткий обзор существующего положенияНовые технологии и продукты (Прогноз Gartner Group 2005)Интеллектуальный анализ

Проекты извлечения информации из текстовСШАПроект TIPSTER (1991 – 1998)Конференции TREC, MUCПрограмма TIDES

Проекты извлечения информации из текстовПроект TIPSTER – новые технологии обработки текстов (1991

Проекты извлечения информации из текстовПрограмма TIDES (Translingual Information Detection, Extraction, and Summarization)

Проекты извлечения информации из текстовЕвропа: Форум CLEF

Проекты извлечения информации из текстовЯпония: Форум NTCIR

Проекты извлечения информации из текстовРоссия: Инициатива РОМИП

Существующие метрики оценки систем типа IEНачало работам по метрикам оценки систем извлечения

Основные требования:Значения метрик должны быть максимальными для «хороших» систем и минимальными для

Достоинства:Отвечают основному критерию, указанному выше и эффективно вычислимы, а также понятны эксперту.Недостатки:Не

Предлагаемые метрики оценки систем типа IEОсновные требования к системе метрик:Монотонность всех метрик

Предлагаемые метрики оценки систем типа IEПараметры новой системы метрикДля существующих метрик оценки

Метрики оценки качества обработки объектовОценка точности выделения объектовПравильно идентифицированным будем называть такой

Метрики оценки качества обработки объектовОценка точности выделения объектовТогда, по аналогии, полностью неправильно

Метрики оценки качества обработки объектовОценка точности выделения объектовИначе обстоит дело с частично

Метрики оценки качества обработки объектовОценка точности выделения объектовгдеα(X) , ε(X) и δ(X)

Метрики оценки качества обработки объектовОценка точности выделения объектовС учетом введенных выше понятий

Метрики оценки качества обработки отношенийОбщие замечанияОценки точности выделения отношений, в отличие от

Метрики оценки качества обработки отношенийОценка точности выделения отношенийПравильно идентифицированным будем называть такое

Метрики оценки качества обработки отношенийОценка точности выделения отношенийТогда полностью неправильно идентифицированное отношение

Метрики оценки качества обработки отношенийОценка точности выделения отношенийДля частично правильно идентифицированных отношений,

Метрики оценки качества обработки отношенийОценка точности выделения отношений– коэффициенты качества обработки всего

Метрики оценки качества обработки отношенийОценка точности выделения отношенийС учетом введенных выше понятий

Метрики оценки качества обработки объектов/отношенийОценка полноты выделения объектов/отношенийВ оценках полноты в классическом

Интегральные оценки качества систем типа IEВ предлагаемой системе метрик для точности и

Тестирование новой системы метрикДля тестирования новой системы метрик была проведена оценка качества

Тестирование новой системы метрикДля оценки результатов было решено использовать объекты типа Person,

Тестирование новой системы метрикКлассические оценки

Тестирование новой системы метрикПредлагаемые оценки (объекты)

Тестирование новой системы метрикПредлагаемые оценки (отношения)

Полученные результаты и дальнейшие исследованияАнализ полученных результатов: Новые метрики более «чувствительны» к

Похожие презентации

План презентации
Введение
Цели и задачи работы
Краткий обзор существующего положения
Проекты извлечения информации из текстов
Существующие

Введение
Автоматическая обработка текстов на естественном языке (ЕЯ) - одно из приоритетных направлений

Введение
Проект OntosMiner
реализуется
швейцарской фирмой Ontos AG и российской IT-фирмой АвиКомп
Мотивация разработки:
Создание многоплатформенного

Введение
Проект OntosMiner
Текущее состояние проекта:
Разработан инструментарий для создания систем типа IE на базе

Введение
Проект OntosMiner

Введение
Проект OntosMiner

Цели и задачи настоящей работы
Обсуждение метрик для оценки качества функционирования систем извлечения

Краткий обзор существующего положения
Новые технологии и продукты (Прогноз Gartner Group 2005)
Интеллектуальный анализ

Проекты извлечения информации из текстов
США
Проект TIPSTER (1991 – 1998)
Конференции TREC, MUC
Программа TIDES

Проекты извлечения информации из текстов
Проект TIPSTER – новые технологии обработки текстов (1991

Проекты извлечения информации из текстов
Программа TIDES (Translingual Information Detection, Extraction, and Summarization)

Проекты извлечения информации из текстов
Европа: Форум CLEF

Проекты извлечения информации из текстов
Япония: Форум NTCIR

Проекты извлечения информации из текстов
Россия: Инициатива РОМИП

Существующие метрики оценки систем типа IE
Начало работам по метрикам оценки систем извлечения

Основные требования:
Значения метрик должны быть максимальными для «хороших» систем и минимальными для

Достоинства:
Отвечают основному критерию, указанному выше и эффективно вычислимы, а также понятны эксперту.
Недостатки:
Не

Предлагаемые метрики оценки систем типа IE
Основные требования к системе метрик:
Монотонность всех метрик

Предлагаемые метрики оценки систем типа IE
Параметры новой системы метрик
Для существующих метрик оценки

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
Правильно идентифицированным будем называть такой

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
Тогда, по аналогии, полностью неправильно

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
Иначе обстоит дело с частично

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
где
α(X) , ε(X) и δ(X)

Метрики оценки качества обработки объектов
Оценка точности выделения объектов
С учетом введенных выше понятий

Метрики оценки качества обработки отношений
Общие замечания
Оценки точности выделения отношений, в отличие от

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
Правильно идентифицированным будем называть такое

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
Тогда полностью неправильно идентифицированное отношение

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
Для частично правильно идентифицированных отношений,

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
– коэффициенты качества обработки всего

Метрики оценки качества обработки отношений
Оценка точности выделения отношений
С учетом введенных выше понятий

Метрики оценки качества обработки объектов/отношений
Оценка полноты выделения объектов/отношений
В оценках полноты в классическом

Интегральные оценки качества систем типа IE
В предлагаемой системе метрик для точности и

Тестирование новой системы метрик
Для тестирования новой системы метрик была проведена оценка качества

Тестирование новой системы метрик
Для оценки результатов было решено использовать объекты типа Person,

Тестирование новой системы метрик
Классические оценки

Тестирование новой системы метрик
Предлагаемые оценки (объекты)

Тестирование новой системы метрик
Предлагаемые оценки (отношения)

Полученные результаты и дальнейшие исследования
Анализ полученных результатов:
Новые метрики более «чувствительны» к