Слайд 2Электронные библиотеки:
эволюция понятия
«Научное наследие»
ЭБ РАО
![Электронные библиотеки: эволюция понятия «Научное наследие» ЭБ РАО](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-1.jpg)
Слайд 3Технологии для электронной библиотеки
Подготовка изданий для электронной библиотеки требует разработки технологии, поддерживающей:
Большие
![Технологии для электронной библиотеки Подготовка изданий для электронной библиотеки требует разработки технологии,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-2.jpg)
объёмы работы, большую долю ручного квалифицированного труда
Единые требования к качеству подготовки электронного вида, по возможности гибкие
Средства интеграции изданий в библиотеку - систему, с единой навигацией и поддержкой возможностей информационного поиска
Комбинированное представление — одно из ключевых решений, которые должна поддерживать любая перспективная технология
Слайд 4Подготовка электронного издания: операции
Текст
Изображения
вычитка
Текстовое представление
Графическое представление
сканирование
обработка
изображений
распознавание
разметка
оформительская / логическая
![Подготовка электронного издания: операции Текст Изображения вычитка Текстовое представление Графическое представление сканирование](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-3.jpg)
Слайд 5Форматы представления
изданий
Текстовое представление: XHTML
единый документ на всё издание
Графическое представление: JPG
![Форматы представления изданий Текстовое представление: XHTML единый документ на всё издание Графическое](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-4.jpg)
изображение каждой страницы
Комбинированное представление:
XHTML + JPG + <графический индекс>
Графический индекс имеет два вида:
текстовый — понятный редактору, постраничный
бинарный — оптимизированный под задачи
сервера библиотеки, единый
Слайд 6Графический индекс
Вопросы, на которые предстоит ответить:
Какие задачи решает графический индекс?
Какую информацию
![Графический индекс Вопросы, на которые предстоит ответить: Какие задачи решает графический индекс?](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-5.jpg)
он содержит?
Зачем нужны два вида (текстовый и бинарный)?
Как устроен формат индекса?
Почему не PDF или DjVu?
Слайд 7Основная задача — показать результаты поиска
Задача: выделять найденные слова на графическом изображении
![Основная задача — показать результаты поиска Задача: выделять найденные слова на графическом](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-6.jpg)
- подсветки
Запрос: «движение преобладает»
Слайд 8Содержание графического индекса
Для каждого слова текстового представления графический индекс должен хранить
![Содержание графического индекса Для каждого слова текстового представления графический индекс должен хранить](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-7.jpg)
соответствие, где оно находится:
на какой странице и в каком прямоугольнике
Дополнения:
Прямоугольников может быть несколько
Kоординаты могут быть приблизительными
Могут быть переносы между страницами
Слайд 9Пример текстового вида
графического индекса
W 177 386 217 587 |АКАДЕМИЯ
_W 177
![Пример текстового вида графического индекса W 177 386 217 587 |АКАДЕМИЯ _W](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-8.jpg)
600 217 953 |ПЕДАГОГИЧЕСКИХ
_W 177 965 217 1066 |НАУК
_W 177 1079 217 1180 |СССР
W 477 378 579 440 |Л
. 477 440 579 464 |.
_W 477 489 579 551 |С
. 477 551 579 574 |.
_W 477 598 579 1186 |ВЫГОТСКИЙ
W 643 541 739 1023 |СОБРАНИЕ
W 754 500 851 1069 |СОЧИНЕНИЙ
W 869 717 929 840 |ТОМ
W 937 643 994 909 |ПЕРВЫЙ
W 1974 654 2034 880 |МОСКВА
Слайд 10Флаги графического индекса
«_» перед атомом стоит пробел
«W» атом словный
«.» атом
![Флаги графического индекса «_» перед атомом стоит пробел «W» атом словный «.»](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-9.jpg)
несловный
«-» перенос слова
«!» пометка «проверить текст»
«?» пометка «проверить графику»
«/» разрыв абзаца
Слайд 11Архитектура сервера библиотеки
Пакеты изданий
Изображения
страниц, JPG
Текст, XHTML
Графический
индекс,
Сервис
просмотра
Поисковая
машина
Сервис
подсветок
![Архитектура сервера библиотеки Пакеты изданий Изображения страниц, JPG Текст, XHTML Графический индекс,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-10.jpg)
Слайд 12Почему не PDF или DjVu?
Форматы PDF и DjVu — прекрасные решения для
![Почему не PDF или DjVu? Форматы PDF и DjVu — прекрасные решения](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/454196/slide-11.jpg)
отдельных книг и их автономного использования.
Но они не адекватны для создания электронных библиотек — потому, что они разработаны для других целей, см. выше
Решение для комбинированного представления — это технологическое решение, специально разрабатываемое под электронные библиотеки.
Различий в «идеологии» — нет.