Комбинированное электронное представление печатных изданий

Содержание

Слайд 2

Электронные библиотеки: эволюция понятия

«Научное наследие»

ЭБ РАО

Электронные библиотеки: эволюция понятия «Научное наследие» ЭБ РАО

Слайд 3

Технологии для электронной библиотеки

Подготовка изданий для электронной библиотеки требует разработки технологии, поддерживающей:
Большие

Технологии для электронной библиотеки Подготовка изданий для электронной библиотеки требует разработки технологии,
объёмы работы, большую долю ручного квалифицированного труда
Единые требования к качеству подготовки электронного вида, по возможности гибкие
Средства интеграции изданий в библиотеку - систему, с единой навигацией и поддержкой возможностей информационного поиска
Комбинированное представление — одно из ключевых решений, которые должна поддерживать любая перспективная технология

Слайд 4

Подготовка электронного издания: операции

Текст

Изображения

вычитка

Текстовое представление

Графическое представление

сканирование

обработка
изображений

распознавание

разметка
оформительская / логическая

Подготовка электронного издания: операции Текст Изображения вычитка Текстовое представление Графическое представление сканирование

Слайд 5

Форматы представления изданий

Текстовое представление: XHTML
единый документ на всё издание
Графическое представление: JPG

Форматы представления изданий Текстовое представление: XHTML единый документ на всё издание Графическое

изображение каждой страницы
Комбинированное представление:
XHTML + JPG + <графический индекс>
Графический индекс имеет два вида:
текстовый — понятный редактору, постраничный
бинарный — оптимизированный под задачи
сервера библиотеки, единый

Слайд 6

Графический индекс

Вопросы, на которые предстоит ответить:
Какие задачи решает графический индекс?
Какую информацию

Графический индекс Вопросы, на которые предстоит ответить: Какие задачи решает графический индекс?
он содержит?
Зачем нужны два вида (текстовый и бинарный)?
Как устроен формат индекса?
Почему не PDF или DjVu?

Слайд 7

Основная задача — показать результаты поиска

Задача: выделять найденные слова на графическом изображении

Основная задача — показать результаты поиска Задача: выделять найденные слова на графическом
- подсветки
Запрос: «движение преобладает»

Слайд 8

Содержание графического индекса

Для каждого слова текстового представления графический индекс должен хранить

Содержание графического индекса Для каждого слова текстового представления графический индекс должен хранить
соответствие, где оно находится:
на какой странице и в каком прямоугольнике
Дополнения:
Прямоугольников может быть несколько
Kоординаты могут быть приблизительными
Могут быть переносы между страницами

Слайд 9

Пример текстового вида графического индекса

W 177 386 217 587 |АКАДЕМИЯ
_W 177

Пример текстового вида графического индекса W 177 386 217 587 |АКАДЕМИЯ _W
600 217 953 |ПЕДАГОГИЧЕСКИХ
_W 177 965 217 1066 |НАУК
_W 177 1079 217 1180 |СССР
W 477 378 579 440 |Л
. 477 440 579 464 |.
_W 477 489 579 551 |С
. 477 551 579 574 |.
_W 477 598 579 1186 |ВЫГОТСКИЙ
W 643 541 739 1023 |СОБРАНИЕ
W 754 500 851 1069 |СОЧИНЕНИЙ
W 869 717 929 840 |ТОМ
W 937 643 994 909 |ПЕРВЫЙ
W 1974 654 2034 880 |МОСКВА

Слайд 10

Флаги графического индекса

«_» перед атомом стоит пробел
«W» атом словный
«.» атом

Флаги графического индекса «_» перед атомом стоит пробел «W» атом словный «.»
несловный
«-» перенос слова
«!» пометка «проверить текст»
«?» пометка «проверить графику»
«/» разрыв абзаца

Слайд 11

Архитектура сервера библиотеки

Пакеты изданий

Изображения
страниц, JPG

Текст, XHTML

Графический
индекс,

Сервис
просмотра

Поисковая
машина

Сервис
подсветок

Архитектура сервера библиотеки Пакеты изданий Изображения страниц, JPG Текст, XHTML Графический индекс,

Слайд 12

Почему не PDF или DjVu?

Форматы PDF и DjVu — прекрасные решения для

Почему не PDF или DjVu? Форматы PDF и DjVu — прекрасные решения
отдельных книг и их автономного использования.
Но они не адекватны для создания электронных библиотек — потому, что они разработаны для других целей, см. выше
Решение для комбинированного представления — это технологическое решение, специально разрабатываемое под электронные библиотеки.
Различий в «идеологии» — нет.
Имя файла: Комбинированное-электронное-представление-печатных-изданий.pptx
Количество просмотров: 104
Количество скачиваний: 0