Автоматизированное индексирование описаний музейных предметов на базе русскоязычной версии Тезауруса по архитектуре и искусст

Содержание

Слайд 2

Доступ к цифровым ресурсам по культурному наследию

Объекты нетекстовой природы
Текстовые описания
Поиск по изображениям
1-5%

Доступ к цифровым ресурсам по культурному наследию Объекты нетекстовой природы Текстовые описания
музейных экспонатов выставлено в экспозициях
Лингвистические ресурсы для концептуального индексирования
Тезаурусы
Онтологии

Слайд 3

Тезаурус по архитектуре и искусству (тезаурус AAT)

Объем: 30 тысяч дескрипторов;130 тысяч англоязычных

Тезаурус по архитектуре и искусству (тезаурус AAT) Объем: 30 тысяч дескрипторов;130 тысяч
терминов
Терминология по искусству, архитектуре, материальной культуре, архивным материалам с античности до наших дней.
Наиболее полное покрытие: искусство Западной Европы и Америки
Специфика искусства народов России представлена недостаточно
Но перечислено множество общезначимых сущностей: материалов, объектов материальной культуры и искусства

Слайд 4

Адаптация Тезауруса AAT для описания культуры народов России

Перевод на русский язык
Дополнение русскоязычными

Адаптация Тезауруса AAT для описания культуры народов России Перевод на русский язык
синонимами
Общезначимый русский язык (ручка – рукоятка –черенок)
Музейная терминология
Дополнение специальной терминологией – отражение специфики культуры России
Современные тенденции в развитии ресурсов:
Сбор текстовых коллекций (корпусов – каталоги, описания музейных предметов)
Автоматизированное извлечение терминов по текстам

Слайд 5

Информационная система «Культурное наследие РОССИИ»

Научно-образовательный центр по лингвистике при Казанском государственном университете
НИВЦ

Информационная система «Культурное наследие РОССИИ» Научно-образовательный центр по лингвистике при Казанском государственном
МГУ- опыт:
Автоматизированная разработка терминологических ресурсов по текстовым коллекциям
Создание тезаурусов и онтологий для автоматического концептуального индексирования
Тезаурус русского языка РуТез – 49 тысяч понятий, 135 тысяч русскоязычных слов, выражений, терминов
Разработка информационных систем на основе технологий концептуального поиска

Слайд 6

Система автоматизированного индексирования на базе тезауруса AAT

Получена лицензия от фонда Гетти на

Система автоматизированного индексирования на базе тезауруса AAT Получена лицензия от фонда Гетти
некоммерческое использование тезауруса AAT
Перевод фасетов AAT: Материалы и объекты
Переведено 10 тысяч дескрипторов
Ссылка на понятие тезауруса РуТез, если есть – известные общезначимые русскоязычные синонимы, дополнительные отношения
Экспериментальная загрузка двуязычного ресурса в тезаурусную оболочку: исходный дескриптор – англоязычные синонимы, русскоязычный дескриптор, дополнение синонимами из Тезауруса РуТез
Экспериментальная обработка реальной коллекции описаний музейных предметов

Слайд 7

Этапы работы системы автоматизированного индексирования

Графематический анализ текста– разбиение текста на значимые элементы:

Этапы работы системы автоматизированного индексирования Графематический анализ текста– разбиение текста на значимые
слова, знаки препинания, числа и т.п.
Морфологический анализ текста – приведение слов текста к словарной форме
Терминологический анализ текста – сопоставление слов текста с терминами тезауруса
Разрешение неоднозначности – ручка: ручка чашки, перьевая ручка
Результат: индекс по дескрипторам тезауруса – концептуальный индекс – не зависит от исходного языка документа

Слайд 8

Фрагмент файла перевода фасета «Материалы»

Фрагмент файла перевода фасета «Материалы»

Слайд 9

Экран программной оболочки ведения тезауруса

Экран программной оболочки ведения тезауруса

Слайд 10

Примеры из коллекции Казанского этнографического музея

Кукла из бумаги. Лицевая сторона обтянута шёлком
Обезьяна,

Примеры из коллекции Казанского этнографического музея Кукла из бумаги. Лицевая сторона обтянута
голубые глаза из бисера, покрыта кожей с волосяным покровом.
Куша. Тело из пестряди. Платье из иранского ситца, с поясом.
Кукла; юбка непропорционально длинная, красного цвета. Голова покрыта платком из красного ситца.
Кукла. Платье из коричневой ткани. Волосы из пакли, заплетены в косу.
Кукла тряпичная. Сарафан из старой ткани розового цвета. Фартук и кофта из красного ситца с беленькими цветочками. На голове розово-белый платок.

Слайд 11

Экранная форма ввода описания предмета

Экранная форма ввода описания предмета

Слайд 12

Пример работы терминологического анализа
hair ВОЛОСЯНОЙ ПОКРОВ
wood ДЕРЕВЯННЫЙ
cult images БОЖОК
wood

Пример работы терминологического анализа hair ВОЛОСЯНОЙ ПОКРОВ wood ДЕРЕВЯННЫЙ cult images БОЖОК
ДЕРЕВЯННЫЙ
cult images БОЖОК
headdresses ШАПКА
triangles ТРЕУГОЛЬНЫЙ
cult images БОЖОК
phonograph records ПЛАСТИНКА
semicircles ПОЛУКРУГ
wood ДЕРЕВЯННЫЙ
cult images БОЖОК
headdresses ШАПКА
dresses ПЛАТЬЕ
chintz СИТЕЦ
puppets КУКЛА
skirts ЮБКА
kerchiefs ПЛАТОК
chintz СИТЕЦ

Слайд 13

Результаты автоматической обработки

Результаты автоматической обработки
Имя файла: Автоматизированное-индексирование-описаний-музейных-предметов-на-базе-русскоязычной-версии-Тезауруса-по-архитектуре-и-искусст.pptx
Количество просмотров: 131
Количество скачиваний: 0