Б.В. Добров, Н.В. Лукашевич, Информационно-поисковые тезаурусы и современные информационные технологии
Содержание
- 2. Современные информационные технологии Огромные объемы электронной информации Автоматическая обработка текстов и задачи информационного поиска Автоматическое индексирование
- 3. План презентации Структура и разработка традиционных информационно-поисковых тезаурусов Тезаурус EUROVOC Принципы разработки тезауруса для автоматической обработки
- 4. Понятийная система предметной области Основой любой предметной области служит система понятий этой области. Определение понятия: Понятие
- 5. Соотношение понятие-термин Понятие Однозначное название = термин в смысле Теории терминологии Текстовые термины
- 6. Информационно-поисковые тезаурусы Информационно-поисковый Тезаурус – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска
- 7. Информационно-поисковые тезаурусы: этапы разработки Первый этап: индексаторы описывают основную тему текста произвольными словами и словосочетаниями Полученные
- 8. Информационно-поисковые тезаурусы: искусство разработки Дескрипторы – это термины, которые нужны для выражения основной темы документа Синонимы
- 9. Информационно-поисковый тезаурус: искусство разработки - 2 В сложных случаях дескрипторы снабжаются пометами и комментариями LIV: bombardment
- 10. Тезаурус EUROVOC – многоязычный тезаурус Европейского Сообщества Тезаурус на 9 языках - 1995 Русская версия EUROVOC
- 11. EUROVOC: нехватка синонимов и вариантов терминов помимо указанных в тезаурусе вариантов может быть выражен также следующими
- 12. EUROVOC: многозначность терминов Включены термины в одном из значений, многозначность не указана: кожа (как кожевенная продукция
- 13. EUROVOC: нехватка конкретных терминов Тезаурус в своем изложении иерархии понятий останавливается на достаточно высоком уровне иерархии
- 14. EUROVOC: примеры отношений ПРИБОРОСТРОЕНИЕ НИЖЕ КОНТРОЛЬНО-ИЗМЕРИТЕЛЬНЫЕ ПРИБОРЫ НИЖЕ НАУЧНЫЕ ПРИБОРЫ ОХРАНА ДЕТСТВА АСЦ ПРОСТИТУЦИЯ МОНОГРАФИИ АСЦ
- 15. Тезаурус для автоматического концептуального индексирования: отличительные особенности Включение значительного числа конкретных понятий (дескрипторов): не только понятие
- 16. От традиционных информационно-поисковых тезаурусов к формальным онтологиям NKOS-2003 precisely defined semantics
- 17. Broader Term (BT) and Narrower Term (NT) relations in AGROVOC BT and NT are typical hierarchical
- 18. Related Term (RT) in AGROVOC RT represents the associative relation. The RT usually involves the most
- 19. Правила ERIC Thesaurus Can use the rules Rule 1 If X isa (type of) instruction and
- 20. Fragment of EUROVOC Article Land register RT Building permit RT Local tax RT Property tax RT
- 21. Эксперимент на основе простых запросов Известно, что использование ресурсов обычно увеличивает полноту и снижает точность Простой
- 22. Исполнение эксперимента R (C1, C2) SQ(C1) – расширить на тексты, содержащие С2 Возьмем тексты, содержащие С2,
- 23. Results of Simple Queries Runs SQ (land register) – 50 documents 41 is relevant to SQ
- 24. Почему точность низка при использовании EUROVOC Все отношения отражают важные взаимосвязи Но каждое понятие может рассматриваться
- 25. Отношения в тезаурусе для автоматической обработки не должны зависеть от контекста!!! Таксономические отношения Некоторые виды отношений
- 26. Функции отношений в тезаурусе для автоматического индексирования Расширение запроса Вывод рубрики по встретившимся в тексте терминам
- 27. Общественно-политический тезаурус Тезаурус для автоматической обработки текстов в общественно-политической области Начат в 1994 году Автоматизированное извлечение
- 28. Общественно-политическая область Жизнь современного общества, общезначимые сферы деятельности Понятия известны значительному количеству современных людей, важны для
- 29. Общественно-политическая область Уровни иерархии Право Бухучет Налоги Банки Предметные подобласти в Общественно-политическом тезаурусе
- 30. Рабочий экран оболочки тезауруса Разные предметные области в одной оболочке Допускается распределенное ведение
- 32. Пример синонимического ряда ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДЫ ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ
- 33. Представление значений языковых выражений в тезаурусе РуТез ГЕОЛОГИЧЕСКАЯ РАЗВЕДКА Геологоразведка, геологоразведочный, …разведка, разведка месторождений, разведка полезных
- 34. Отношения в Общественно-политическом тезаурусе отношение ВЫШЕ-НИЖЕ – таксономическое отношение НО!! Должно быть действительно для всех примеров
- 35. Отношения (2) в Общественно-политическом тезаурусе отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, + участники ситуации, +свойства НО!! Должно
- 36. Автоматическая обработка текстов на основе Общественно-политического Тезауруса АЛОТ – автоматическая лингвистическая обработка текстов Концептуальное индексирование Ранжированный
- 37. Наши проекты Аппарат Государственной Думы ФС РФ (1999 - н/в) НИИ Восход; ЦИК РФ (1997 -
- 38. Информеры для уточнения запроса
- 39. Результаты концептуального поиска Документы на русском языке Наиболее характерные для выдачи понятия
- 40. АЛОТ: основные этапы Конвертация файлов: формальные характеристики и неиндексируемые фрагменты Графематический и морфологический анализ Терминологический анализ:
- 41. Тематические линии терминов Тезауруса (Постановление Правительства РФ от 26 июня 1995 г. N 604) О порядке
- 42. Сеть тематических узлов (Постановление Правительства РФ от 26 июня 1995 г. N 604)
- 43. Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604) ----+----------------------------------------------------------------------+ | ВОЕННАЯ СЛУЖБА;
- 44. Тематическое двуязычное индексирование Русскоязычный документ Англоязычный документ Англоязычное представление Русскоязычное представление Тематическое представление содержания документа
- 45. Thematic representation of a text: Thematic Node i || + == Thematic Node j Thematic node
- 47. Терминологическая поддержка рубрикации Объяснение выбора рубрики по тексту
- 49. Скачать презентацию