Обнаружение текста на изображениях

Содержание

Слайд 3

Зачем?

Необходимо для дальнейшего распознавания текста (OCR)
Документы – page layout analysis
Фотографии, чертежи, графики

Зачем? Необходимо для дальнейшего распознавания текста (OCR) Документы – page layout analysis
– text detection and localization
Самостоятельные приложения
Автоматическое построение коллажей
Автоматическое изменение размера изображений

Слайд 4

Компоненты системы извлечения текста

Fig. credit: J. Gllavata

+ Text Enhancement

Компоненты системы извлечения текста Fig. credit: J. Gllavata + Text Enhancement

Слайд 5

Приложения

Оцифровка документов
Индексирование и извлечение информации из графиков и чертежей
Индексирование и поиск изображений,

Приложения Оцифровка документов Индексирование и извлечение информации из графиков и чертежей Индексирование
автоматическое построение аннотаций
Переводчик в кармане пример: Word Lens (http://questvisual.com/)
Помощь слабовидящим
Навигация роботов в помещениях, в городских условиях

Слайд 9

Обнаружение текста – газеты, журналы, книги

обнаружение текстовых областей
определение угла поворота текста (skew

Обнаружение текста – газеты, журналы, книги обнаружение текстовых областей определение угла поворота
detection)
определение порядка чтения

Слайд 10

Обнаружение текста – произвольные изображения

Исходное изображение

Возможные результаты работы алгоритмов обнаружения текста

Обнаружение текста – произвольные изображения Исходное изображение Возможные результаты работы алгоритмов обнаружения текста

Слайд 11

Обнаружение текста – чертежи и графики

Обнаружение текстовых областей
Определение угла поворота текстовых строк
Короткие

Обнаружение текста – чертежи и графики Обнаружение текстовых областей Определение угла поворота
фрагменты текста
Разнообразие шрифтов, текст под разными углами
Однородный фон
Высокая контрастность

фотографии

печатные документы

Слайд 12

План лекции

Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление
связности, бинаризация, преобразование Хафа
Печатные документы (document images)
Фотографии (natural scenes)
Чертежи, графики, обложки

Слайд 13

Представление цифровых изображений

Растровое изображение

Представление цифровых изображений Растровое изображение

Слайд 14

Представление цифровых изображений

RGB – распространенная модель цвета
Каждый пиксель задается тремя значениями: red,

Представление цифровых изображений RGB – распространенная модель цвета Каждый пиксель задается тремя
green, blue

Цветное растровое изображение:

Слайд 15

Обнаружение границ

Обнаружение границ

Слайд 16

Градиент изображения
Градиент направлен в сторону наибольшего изменения интенсивности
Направление градиента:
Величина градиента:

Градиент изображения Градиент направлен в сторону наибольшего изменения интенсивности Направление градиента: Величина градиента:

Слайд 17

Вычисление градиента изображения

Roberts:

Prewitt:

Sobel:
Дискретный случай:

Вычисление градиента изображения Roberts: Prewitt: Sobel: Дискретный случай:

Слайд 18

Выделение границ: примеры

Sobel

Canny

Исходное

Выделение границ: примеры Sobel Canny Исходное

Слайд 19

Компоненты связности

Компоненты связности

Слайд 20

Компоненты связности

Компоненты связности

Слайд 21

Пороговая бинаризация

Светлый объект на темном фоне

Два светлых объекта на темном фоне

Глобальная –

Пороговая бинаризация Светлый объект на темном фоне Два светлых объекта на темном
порог единый для всех точек изображения
Локальная или Динамическая – когда порог зависит от координат точки (x,y)
Адаптивная – когда порог зависит от значения яркости в точке I(x,y)

Слайд 22

Бинаризация

Бинаризация

Слайд 23

Преобразование Хафа (Hough transform)

x

y

m

b

m0

b0

image space

Hough space

Для данного набора точек (x, y)

Преобразование Хафа (Hough transform) x y m b m0 b0 image space
найти все точки (m, b), такие что y = mx+b

Слайд 24

Преобразование Хафа (Hough transform)

x

y

m

b

image space

Hough space

x0

y0

Для данного набора точек (x, y)

Преобразование Хафа (Hough transform) x y m b image space Hough space
найти все точки (m, b), такие что y = mx+b

Слайд 25

План лекции

Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление
связности, бинаризация, преобразование Хафа
Печатные документы (document images)
Фотографии (natural scenes)
Графики, диаграммы, обложки

Слайд 26

Основные задачи

Печатные документы

Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation,

Основные задачи Печатные документы Анализ структуры страницы (layout analysis, geometric structure analysis,
region classification)

Fig. credit: Y.Y. Tang et al.

Слайд 27

Основные задачи

Печатные документы

Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation,

Основные задачи Печатные документы Анализ структуры страницы (layout analysis, geometric structure analysis,
region classification)

Fig. credit: Y.Y. Tang et al.

Методы
«Сверху-вниз» (top-down)
XY-cuts, whitespace segmentation
«Снизу-вверх» (bottom-up)
группировка ближайших соседей, диаграммы Вороного

Слайд 28

Projection profiles and XY-cuts

Вертикальная проекция

Горизонтальная проекция

Fig. credit: Y.Y. Tang et al.

Projection profiles and XY-cuts Вертикальная проекция Горизонтальная проекция Fig. credit: Y.Y. Tang et al.

Слайд 29

Результат алгоритма Docstrum

Методы «снизу-вверх»

Fig. credit: A. Namboodiri et al.

Результат алгоритма Docstrum Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.

Слайд 30

Использование диаграмм Вороного

Методы «снизу-вверх»

Fig. credit: A. Namboodiri et al.

Использование диаграмм Вороного Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.

Слайд 31

Основные задачи

Печатные документы

Определение поворота текста (page rotation, skew detection)

Обнаружение текстовых строк (text

Основные задачи Печатные документы Определение поворота текста (page rotation, skew detection) Обнаружение
line finding, baseline finding)

Projection profiles (для исходного изображения или компонент связности)
Использование преобразования Хафа
Определение угла наклона тектовых строк

Слайд 32

План лекции

Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление
связности, бинаризация, преобразование Хафа
Печатные документы (document images)
Фотографии (natural scenes)
Графики, диаграммы, обложки

Слайд 33

Почему не работают традиционные методы?

Фотографии

Большое разнообразие шрифтов
Разнообразие расположений и направлений текстовых строк
Короткие

Почему не работают традиционные методы? Фотографии Большое разнообразие шрифтов Разнообразие расположений и
текстовые строки
Разнообразие условий съемки (освещение, фокусное расстояние)
Сложный фон
Нет определенной структуры страницы
Наложение объектов (occlusions)

Слайд 34

Классификация подходов

Фотографии

Text detection and localization

Texture-based

Region-based

CC-based

Edge-based

K. Jung et al.

Классификация подходов Фотографии Text detection and localization Texture-based Region-based CC-based Edge-based K. Jung et al.

Слайд 35

Методы, основанные на анализе текстуры

Фотографии

Построение пирамиды изображений

Извлечение текстурных признаков (Gabor, Wevelets, DCT)

Методы, основанные на анализе текстуры Фотографии Построение пирамиды изображений Извлечение текстурных признаков (Gabor, Wevelets, DCT)

Слайд 36

Методы, основанные на анализе текстуры

Фотографии

Сложный фон

Вычислительно сложные (обработка нескольких масштабов, операции свертки)
Произвольная

Методы, основанные на анализе текстуры Фотографии Сложный фон Вычислительно сложные (обработка нескольких
направленность текста (негоризонтальный текст)
Произвольный размер шрифта

+


Слайд 37

Region-based methods (bottom-up)

Фотографии

Выделение компонент связности на основе локальных признаков (близкий цвет или

Region-based methods (bottom-up) Фотографии Выделение компонент связности на основе локальных признаков (близкий
принадлежность границе)
Объединение выделенных компонент связности в группы по признакам близкого расположения и схожих локальных признаков (размер, цвет)

Слайд 38

Region-based methods

Фотографии

Произвольный размер шрифта
Произвольная направленность текста
Просты в реализации

Сложный фон
Шум и нерезкость изображения
Используют

Region-based methods Фотографии Произвольный размер шрифта Произвольная направленность текста Просты в реализации
большое количество эвристик

+


Слайд 39

Stroke Width Transform (SWT)

B. Epshtein et al.

Исходное изображение

Результат SWT

После фильтрации
по признаку постоянства ширины

Stroke Width Transform (SWT) B. Epshtein et al. Исходное изображение Результат SWT
штриха

Найденный текст

Слайд 40

Обнаружение текста при помощи SWT

B. Epshtein et al.

Обнаружение текста при помощи SWT B. Epshtein et al.

Слайд 41

Вычисление SWT

Фрагмент штриха
p – пиксель на границе штриха, q – пиксель на

Вычисление SWT Фрагмент штриха p – пиксель на границе штриха, q –
противоположной стороне штриха (градиенты в p и q направлены друг на друга)
Всем пикселям вдоль луча pq присваивается значение ширины штриха

B. Epshtein et al.

Слайд 42

Обнаружение текста с помощью SWT

Границы для нерезких изображений, низкого разрешения – ☹
Погрешность

Обнаружение текста с помощью SWT Границы для нерезких изображений, низкого разрешения –
SWT на стыках штрихов – ☹
Эвристики для фильтрации компонент – ☹
Двойной проход и интеграция результатов – ☹

Слайд 43

Комбинированные методы

Y.-F. Pan et al.

Комбинированные методы Y.-F. Pan et al.

Слайд 44

Шаг 1 – анализ текстуры

Комбинированные методы

Y.-F. Pan et al.

Шаг 1 – анализ текстуры Комбинированные методы Y.-F. Pan et al.

Слайд 45

Шаг 2 – анализ компонент связности

Комбинированные методы

Y.-F. Pan et al.

Шаг 2 – анализ компонент связности Комбинированные методы Y.-F. Pan et al.

Слайд 46

Шаг 3 – выделение текстовых строк и слов

Комбинированные методы

Y.-F. Pan et al.

Шаг 3 – выделение текстовых строк и слов Комбинированные методы Y.-F. Pan
построение минимального остовного дерева
решение оптимизационной задачи

Слайд 47

Robust Reading Competitions

ICDAR (2003, 2005, 2009, 2011)

Распознавание символов
Распознавание слов
Локализация текста
Распознавание текста

Robust Reading Competitions ICDAR (2003, 2005, 2009, 2011) Распознавание символов Распознавание слов Локализация текста Распознавание текста

Слайд 48

План лекции

Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление
связности, бинаризация, преобразование Хафа
Печатные документы (document images)
Фотографии (natural scenes)
Графики, диаграммы, обложки

Слайд 49

Графики и диаграммы

Анализ компонент связности по цвету

Графики и диаграммы Анализ компонент связности по цвету

Слайд 50

Экспериментальная оценка

LocationRecognitionRate = NLoc/NG

LocationPrecisionRate = NLoc/NF

TextPrecisionRate =

Экспериментальная оценка LocationRecognitionRate = NLoc/NG LocationPrecisionRate = NLoc/NF TextPrecisionRate = NTxt/NF TextRecognitionRate
NTxt/NF

TextRecognitionRate = NTxt/NG

NLoc – the number of correctly localized text blocks

NTxt – the number of correctly recognized text blocks

NG – the total number of text blocks

NF – the total number of detected text blocks

Тестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool

Слайд 51

Screenshots

(+) Быстрая бинаризация
Время обработки изображения1600x1008
Tesseract OCR: ~6.56 секунд
Данный алгоритм: ~0.45 seconds
(–) Требует

Screenshots (+) Быстрая бинаризация Время обработки изображения1600x1008 Tesseract OCR: ~6.56 секунд Данный
фильтрации компонент
Naïve Bayes

Выделение границ и пороговая бинаризация
Удаление длинных горизонтальных и вертикальных границ
Выделение компонент связности
Классификация компонент связности и адаптивная бинаризация

Имя файла: Обнаружение-текста-на-изображениях.pptx
Количество просмотров: 151
Количество скачиваний: 0