Слайд 2Постановка задачи
Рассмотрена задача извлечения полнотекстового содержания и метаданных из книг электронной библиотеки
в форматах PDF, PostScript (PS), DJVU, CHM и HTML; разработка системы автоматизированной пакетной обработки электронных единиц хранения библиотеки в этих форматах с целью выделения следующих элементов информации:
1. полный текст документа без управляющих и форматных символов;
2. название документа;
3. список авторов;
4. количество страниц;
5. год издания;
6. язык документа;
Слайд 3Пример метаданных электронной книги
Слайд 4Блок-схема системы извлечения метаданных
Слайд 5Блок-схема «Анализатора языка»
Слайд 6Блок-схема обработки
иноязычных книг
Слайд 7Пример отклика сайта isbndb.com на запрос
Слайд 8Блок-схема
«Выборки метаданных»
Слайд 9Элемент текста с метаданными
в русскоязычной книге
Слайд 10Пример текстового
вывода программы