Слайд 2Электронные библиотеки:
эволюция понятия
«Научное наследие»
ЭБ РАО
Слайд 3Технологии для электронной библиотеки
Подготовка изданий для электронной библиотеки требует разработки технологии, поддерживающей:
Большие
объёмы работы, большую долю ручного квалифицированного труда
Единые требования к качеству подготовки электронного вида, по возможности гибкие
Средства интеграции изданий в библиотеку - систему, с единой навигацией и поддержкой возможностей информационного поиска
Комбинированное представление — одно из ключевых решений, которые должна поддерживать любая перспективная технология
Слайд 4Подготовка электронного издания: операции
Текст
Изображения
вычитка
Текстовое представление
Графическое представление
сканирование
обработка
изображений
распознавание
разметка
оформительская / логическая
Слайд 5Форматы представления
изданий
Текстовое представление: XHTML
единый документ на всё издание
Графическое представление: JPG
изображение каждой страницы
Комбинированное представление:
XHTML + JPG + <графический индекс>
Графический индекс имеет два вида:
текстовый — понятный редактору, постраничный
бинарный — оптимизированный под задачи
сервера библиотеки, единый
Слайд 6Графический индекс
Вопросы, на которые предстоит ответить:
Какие задачи решает графический индекс?
Какую информацию
он содержит?
Зачем нужны два вида (текстовый и бинарный)?
Как устроен формат индекса?
Почему не PDF или DjVu?
Слайд 7Основная задача — показать результаты поиска
Задача: выделять найденные слова на графическом изображении
- подсветки
Запрос: «движение преобладает»
Слайд 8Содержание графического индекса
Для каждого слова текстового представления графический индекс должен хранить
соответствие, где оно находится:
на какой странице и в каком прямоугольнике
Дополнения:
Прямоугольников может быть несколько
Kоординаты могут быть приблизительными
Могут быть переносы между страницами
Слайд 9Пример текстового вида
графического индекса
W 177 386 217 587 |АКАДЕМИЯ
_W 177
600 217 953 |ПЕДАГОГИЧЕСКИХ
_W 177 965 217 1066 |НАУК
_W 177 1079 217 1180 |СССР
W 477 378 579 440 |Л
. 477 440 579 464 |.
_W 477 489 579 551 |С
. 477 551 579 574 |.
_W 477 598 579 1186 |ВЫГОТСКИЙ
W 643 541 739 1023 |СОБРАНИЕ
W 754 500 851 1069 |СОЧИНЕНИЙ
W 869 717 929 840 |ТОМ
W 937 643 994 909 |ПЕРВЫЙ
W 1974 654 2034 880 |МОСКВА
Слайд 10Флаги графического индекса
«_» перед атомом стоит пробел
«W» атом словный
«.» атом
несловный
«-» перенос слова
«!» пометка «проверить текст»
«?» пометка «проверить графику»
«/» разрыв абзаца
Слайд 11Архитектура сервера библиотеки
Пакеты изданий
Изображения
страниц, JPG
Текст, XHTML
Графический
индекс,
Сервис
просмотра
Поисковая
машина
Сервис
подсветок
Слайд 12Почему не PDF или DjVu?
Форматы PDF и DjVu — прекрасные решения для
отдельных книг и их автономного использования.
Но они не адекватны для создания электронных библиотек — потому, что они разработаны для других целей, см. выше
Решение для комбинированного представления — это технологическое решение, специально разрабатываемое под электронные библиотеки.
Различий в «идеологии» — нет.