Обнаружение текста на изображениях

Февраль 20, 2021

Главная
Разное
Обнаружение текста на изображениях

Содержание

3. Зачем? Необходимо для дальнейшего распознавания текста (OCR) Документы – page layout analysis Фотографии, чертежи, графики –
4. Компоненты системы извлечения текста Fig. credit: J. Gllavata + Text Enhancement
5. Приложения Оцифровка документов Индексирование и извлечение информации из графиков и чертежей Индексирование и поиск изображений, автоматическое
9. Обнаружение текста – газеты, журналы, книги обнаружение текстовых областей определение угла поворота текста (skew detection) определение
10. Обнаружение текста – произвольные изображения Исходное изображение Возможные результаты работы алгоритмов обнаружения текста
11. Обнаружение текста – чертежи и графики Обнаружение текстовых областей Определение угла поворота текстовых строк Короткие фрагменты
12. План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты
13. Представление цифровых изображений Растровое изображение
14. Представление цифровых изображений RGB – распространенная модель цвета Каждый пиксель задается тремя значениями: red, green, blue
15. Обнаружение границ
16. Градиент изображения Градиент направлен в сторону наибольшего изменения интенсивности Направление градиента: Величина градиента:
17. Вычисление градиента изображения Roberts: Prewitt: Sobel: Дискретный случай:
18. Выделение границ: примеры Sobel Canny Исходное
19. Компоненты связности
20. Компоненты связности
21. Пороговая бинаризация Светлый объект на темном фоне Два светлых объекта на темном фоне Глобальная – порог
22. Бинаризация
23. Преобразование Хафа (Hough transform) x y m b m0 b0 image space Hough space Для данного
24. Преобразование Хафа (Hough transform) x y m b image space Hough space x0 y0 Для данного
25. План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты
26. Основные задачи Печатные документы Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)
27. Основные задачи Печатные документы Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)
28. Projection profiles and XY-cuts Вертикальная проекция Горизонтальная проекция Fig. credit: Y.Y. Tang et al.
29. Результат алгоритма Docstrum Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.
30. Использование диаграмм Вороного Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.
31. Основные задачи Печатные документы Определение поворота текста (page rotation, skew detection) Обнаружение текстовых строк (text line
32. План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты
33. Почему не работают традиционные методы? Фотографии Большое разнообразие шрифтов Разнообразие расположений и направлений текстовых строк Короткие
34. Классификация подходов Фотографии Text detection and localization Texture-based Region-based CC-based Edge-based K. Jung et al.
35. Методы, основанные на анализе текстуры Фотографии Построение пирамиды изображений Извлечение текстурных признаков (Gabor, Wevelets, DCT)
36. Методы, основанные на анализе текстуры Фотографии Сложный фон Вычислительно сложные (обработка нескольких масштабов, операции свертки) Произвольная
37. Region-based methods (bottom-up) Фотографии Выделение компонент связности на основе локальных признаков (близкий цвет или принадлежность границе)
38. Region-based methods Фотографии Произвольный размер шрифта Произвольная направленность текста Просты в реализации Сложный фон Шум и
39. Stroke Width Transform (SWT) B. Epshtein et al. Исходное изображение Результат SWT После фильтрации по признаку
40. Обнаружение текста при помощи SWT B. Epshtein et al.
41. Вычисление SWT Фрагмент штриха p – пиксель на границе штриха, q – пиксель на противоположной стороне
42. Обнаружение текста с помощью SWT Границы для нерезких изображений, низкого разрешения – ☹ Погрешность SWT на
43. Комбинированные методы Y.-F. Pan et al.
44. Шаг 1 – анализ текстуры Комбинированные методы Y.-F. Pan et al.
45. Шаг 2 – анализ компонент связности Комбинированные методы Y.-F. Pan et al.
46. Шаг 3 – выделение текстовых строк и слов Комбинированные методы Y.-F. Pan et al. построение минимального
47. Robust Reading Competitions ICDAR (2003, 2005, 2009, 2011) Распознавание символов Распознавание слов Локализация текста Распознавание текста
48. План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты
49. Графики и диаграммы Анализ компонент связности по цвету
50. Экспериментальная оценка LocationRecognitionRate = NLoc/NG LocationPrecisionRate = NLoc/NF TextPrecisionRate = NTxt/NF TextRecognitionRate = NTxt/NG NLoc –
51. Screenshots (+) Быстрая бинаризация Время обработки изображения1600x1008 Tesseract OCR: ~6.56 секунд Данный алгоритм: ~0.45 seconds (–)
53. Скачать презентацию

Слайд 2

Слайд 3

Зачем?
Необходимо для дальнейшего распознавания текста (OCR)
Документы – page layout analysis
Фотографии, чертежи, графики

– text detection and localization
Самостоятельные приложения
Автоматическое построение коллажей
Автоматическое изменение размера изображений

Слайд 4

Компоненты системы извлечения текста
Fig. credit: J. Gllavata
+ Text Enhancement

Слайд 5

Приложения
Оцифровка документов
Индексирование и извлечение информации из графиков и чертежей
Индексирование и поиск изображений,

автоматическое построение аннотаций
Переводчик в кармане пример: Word Lens (http://questvisual.com/)
Помощь слабовидящим
Навигация роботов в помещениях, в городских условиях

Слайд 6

Слайд 7

Слайд 8

Слайд 9

Обнаружение текста – газеты, журналы, книги
обнаружение текстовых областей
определение угла поворота текста (skew

detection)
определение порядка чтения

Слайд 10

Обнаружение текста – произвольные изображения
Исходное изображение
Возможные результаты работы алгоритмов обнаружения текста

Слайд 11

Обнаружение текста – чертежи и графики
Обнаружение текстовых областей
Определение угла поворота текстовых строк
Короткие

фрагменты текста
Разнообразие шрифтов, текст под разными углами
Однородный фон
Высокая контрастность

фотографии

печатные документы

Слайд 12

План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

связности, бинаризация, преобразование Хафа
Печатные документы (document images)
Фотографии (natural scenes)
Чертежи, графики, обложки

Слайд 13

Представление цифровых изображений
Растровое изображение

Слайд 14

Представление цифровых изображений
RGB – распространенная модель цвета
Каждый пиксель задается тремя значениями: red,

green, blue

Цветное растровое изображение:

Слайд 15

Обнаружение границ

Слайд 16

Градиент изображения
Градиент направлен в сторону наибольшего изменения интенсивности
Направление градиента:
Величина градиента:

Слайд 17

Вычисление градиента изображения
Roberts:
Prewitt:
Sobel:
Дискретный случай:

Слайд 18

Выделение границ: примеры
Sobel
Canny
Исходное

Слайд 19

Компоненты связности

Слайд 20

Компоненты связности

Слайд 21

Пороговая бинаризация
Светлый объект на темном фоне
Два светлых объекта на темном фоне
Глобальная –

порог единый для всех точек изображения
Локальная или Динамическая – когда порог зависит от координат точки (x,y)
Адаптивная – когда порог зависит от значения яркости в точке I(x,y)

Слайд 22

Бинаризация

Слайд 23

Преобразование Хафа (Hough transform)
x
y
m
b
m0
b0
image space
Hough space
Для данного набора точек (x, y)

найти все точки (m, b), такие что y = mx+b

Слайд 24

Преобразование Хафа (Hough transform)
x
y
m
b
image space
Hough space
x0
y0
Для данного набора точек (x, y)

найти все точки (m, b), такие что y = mx+b

Слайд 25

План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

связности, бинаризация, преобразование Хафа
Печатные документы (document images)
Фотографии (natural scenes)
Графики, диаграммы, обложки

Слайд 26

Основные задачи
Печатные документы
Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation,

region classification)

Fig. credit: Y.Y. Tang et al.

Слайд 27

Основные задачи
Печатные документы
Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation,

region classification)

Fig. credit: Y.Y. Tang et al.

Методы
«Сверху-вниз» (top-down)
XY-cuts, whitespace segmentation
«Снизу-вверх» (bottom-up)
группировка ближайших соседей, диаграммы Вороного

Слайд 28

Projection profiles and XY-cuts
Вертикальная проекция
Горизонтальная проекция
Fig. credit: Y.Y. Tang et al.

Слайд 29

Результат алгоритма Docstrum
Методы «снизу-вверх»
Fig. credit: A. Namboodiri et al.

Слайд 30

Использование диаграмм Вороного
Методы «снизу-вверх»
Fig. credit: A. Namboodiri et al.

Слайд 31

Основные задачи
Печатные документы
Определение поворота текста (page rotation, skew detection)
Обнаружение текстовых строк (text

line finding, baseline finding)

Projection profiles (для исходного изображения или компонент связности)
Использование преобразования Хафа
Определение угла наклона тектовых строк

Слайд 32

План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

Слайд 33

Почему не работают традиционные методы?
Фотографии
Большое разнообразие шрифтов
Разнообразие расположений и направлений текстовых строк
Короткие

текстовые строки
Разнообразие условий съемки (освещение, фокусное расстояние)
Сложный фон
Нет определенной структуры страницы
Наложение объектов (occlusions)

Слайд 34

Классификация подходов
Фотографии
Text detection and localization
Texture-based
Region-based
CC-based
Edge-based
K. Jung et al.

Слайд 35

Методы, основанные на анализе текстуры
Фотографии
Построение пирамиды изображений
Извлечение текстурных признаков (Gabor, Wevelets, DCT)

Слайд 36

Методы, основанные на анализе текстуры
Фотографии
Сложный фон
Вычислительно сложные (обработка нескольких масштабов, операции свертки)
Произвольная

направленность текста (негоризонтальный текст)
Произвольный размер шрифта

–

Слайд 37

Region-based methods (bottom-up)
Фотографии
Выделение компонент связности на основе локальных признаков (близкий цвет или

принадлежность границе)
Объединение выделенных компонент связности в группы по признакам близкого расположения и схожих локальных признаков (размер, цвет)

Слайд 38

Region-based methods
Фотографии
Произвольный размер шрифта
Произвольная направленность текста
Просты в реализации
Сложный фон
Шум и нерезкость изображения
Используют

большое количество эвристик

–

Слайд 39

Stroke Width Transform (SWT)
B. Epshtein et al.
Исходное изображение
Результат SWT
После фильтрации
по признаку постоянства ширины

штриха

Найденный текст

Слайд 40

Обнаружение текста при помощи SWT
B. Epshtein et al.

Слайд 41

Вычисление SWT
Фрагмент штриха
p – пиксель на границе штриха, q – пиксель на

противоположной стороне штриха (градиенты в p и q направлены друг на друга)
Всем пикселям вдоль луча pq присваивается значение ширины штриха

B. Epshtein et al.

Слайд 42

Обнаружение текста с помощью SWT
Границы для нерезких изображений, низкого разрешения – ☹
Погрешность

SWT на стыках штрихов – ☹
Эвристики для фильтрации компонент – ☹
Двойной проход и интеграция результатов – ☹

Слайд 43

Комбинированные методы
Y.-F. Pan et al.

Слайд 44

Шаг 1 – анализ текстуры
Комбинированные методы
Y.-F. Pan et al.

Слайд 45

Шаг 2 – анализ компонент связности
Комбинированные методы
Y.-F. Pan et al.

Слайд 46

Шаг 3 – выделение текстовых строк и слов
Комбинированные методы
Y.-F. Pan et al.

построение минимального остовного дерева
решение оптимизационной задачи

Слайд 47

Robust Reading Competitions
ICDAR (2003, 2005, 2009, 2011)
Распознавание символов
Распознавание слов
Локализация текста
Распознавание текста

Слайд 48

План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

Слайд 49

Графики и диаграммы
Анализ компонент связности по цвету

Слайд 50

Экспериментальная оценка
LocationRecognitionRate = NLoc/NG
LocationPrecisionRate = NLoc/NF
TextPrecisionRate =

NTxt/NF

TextRecognitionRate = NTxt/NG

NLoc – the number of correctly localized text blocks

NTxt – the number of correctly recognized text blocks

NG – the total number of text blocks

NF – the total number of detected text blocks

Тестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool

Слайд 51

Screenshots
(+) Быстрая бинаризация
Время обработки изображения1600x1008
Tesseract OCR: ~6.56 секунд
Данный алгоритм: ~0.45 seconds
(–) Требует

фильтрации компонент
Naïve Bayes

Выделение границ и пороговая бинаризация
Удаление длинных горизонтальных и вертикальных границ
Выделение компонент связности
Классификация компонент связности и адаптивная бинаризация

Обнаружение текста на изображениях

Содержание

Зачем?Необходимо для дальнейшего распознавания текста (OCR)Документы – page layout analysisФотографии, чертежи, графики

Компоненты системы извлечения текстаFig. credit: J. Gllavata+ Text Enhancement

ПриложенияОцифровка документовИндексирование и извлечение информации из графиков и чертежейИндексирование и поиск изображений,

Обнаружение текста – газеты, журналы, книгиобнаружение текстовых областейопределение угла поворота текста (skew

Обнаружение текста – произвольные изображения Исходное изображениеВозможные результаты работы алгоритмов обнаружения текста

Обнаружение текста – чертежи и графикиОбнаружение текстовых областейОпределение угла поворота текстовых строк Короткие

План лекцииЗачем нужны алгоритмы обнаружения текста?Что такое цифровое изображение?Представление цифровых изображенийГраницы, компоненты

Представление цифровых изображенийРастровое изображение

Представление цифровых изображенийRGB – распространенная модель цветаКаждый пиксель задается тремя значениями: red,

Обнаружение границ

Градиент изображенияГрадиент направлен в сторону наибольшего изменения интенсивностиНаправление градиента:Величина градиента:

Вычисление градиента изображенияRoberts:Prewitt:Sobel:Дискретный случай:

Выделение границ: примерыSobelCannyИсходное

Компоненты связности

Компоненты связности

Пороговая бинаризацияСветлый объект на темном фонеДва светлых объекта на темном фонеГлобальная –

Бинаризация

Преобразование Хафа (Hough transform)xymbm0b0image spaceHough space Для данного набора точек (x, y)

Преобразование Хафа (Hough transform)xymbimage spaceHough spacex0y0 Для данного набора точек (x, y)

План лекцииЗачем нужны алгоритмы обнаружения текста?Что такое цифровое изображение?Представление цифровых изображенийГраницы, компоненты

Основные задачиПечатные документыАнализ структуры страницы (layout analysis, geometric structure analysis, page segmentation,

Основные задачиПечатные документыАнализ структуры страницы (layout analysis, geometric structure analysis, page segmentation,

Projection profiles and XY-cutsВертикальная проекцияГоризонтальная проекцияFig. credit: Y.Y. Tang et al.

Результат алгоритма DocstrumМетоды «снизу-вверх»Fig. credit: A. Namboodiri et al.

Использование диаграмм ВороногоМетоды «снизу-вверх»Fig. credit: A. Namboodiri et al.

Основные задачиПечатные документыОпределение поворота текста (page rotation, skew detection)Обнаружение текстовых строк (text

План лекцииЗачем нужны алгоритмы обнаружения текста?Что такое цифровое изображение?Представление цифровых изображенийГраницы, компоненты

Почему не работают традиционные методы?ФотографииБольшое разнообразие шрифтовРазнообразие расположений и направлений текстовых строкКороткие

Классификация подходовФотографииText detection and localizationTexture-basedRegion-basedCC-basedEdge-basedK. Jung et al.

Методы, основанные на анализе текстурыФотографииПостроение пирамиды изображенийИзвлечение текстурных признаков (Gabor, Wevelets, DCT)

Методы, основанные на анализе текстурыФотографииСложный фонВычислительно сложные (обработка нескольких масштабов, операции свертки)Произвольная

Region-based methods (bottom-up)ФотографииВыделение компонент связности на основе локальных признаков (близкий цвет или

Region-based methodsФотографииПроизвольный размер шрифтаПроизвольная направленность текстаПросты в реализацииСложный фонШум и нерезкость изображенияИспользуют

Stroke Width Transform (SWT)B. Epshtein et al.Исходное изображениеРезультат SWTПосле фильтрациипо признаку постоянства ширины

Обнаружение текста при помощи SWTB. Epshtein et al.

Вычисление SWTФрагмент штриха p – пиксель на границе штриха, q – пиксель на

Обнаружение текста с помощью SWTГраницы для нерезких изображений, низкого разрешения – ☹Погрешность

Комбинированные методыY.-F. Pan et al.

Шаг 1 – анализ текстурыКомбинированные методыY.-F. Pan et al.

Шаг 2 – анализ компонент связностиКомбинированные методыY.-F. Pan et al.

Шаг 3 – выделение текстовых строк и словКомбинированные методыY.-F. Pan et al.

Robust Reading CompetitionsICDAR (2003, 2005, 2009, 2011)Распознавание символовРаспознавание словЛокализация текстаРаспознавание текста

План лекцииЗачем нужны алгоритмы обнаружения текста?Что такое цифровое изображение?Представление цифровых изображенийГраницы, компоненты

Графики и диаграммыАнализ компонент связности по цвету

Экспериментальная оценка LocationRecognitionRate = NLoc/NG LocationPrecisionRate = NLoc/NF TextPrecisionRate =

Screenshots(+) Быстрая бинаризацияВремя обработки изображения1600x1008Tesseract OCR: ~6.56 секундДанный алгоритм: ~0.45 seconds(–) Требует

Похожие презентации

Зачем?
Необходимо для дальнейшего распознавания текста (OCR)
Документы – page layout analysis
Фотографии, чертежи, графики

Компоненты системы извлечения текста
Fig. credit: J. Gllavata
+ Text Enhancement

Приложения
Оцифровка документов
Индексирование и извлечение информации из графиков и чертежей
Индексирование и поиск изображений,

Обнаружение текста – газеты, журналы, книги
обнаружение текстовых областей
определение угла поворота текста (skew

Обнаружение текста – произвольные изображения
Исходное изображение
Возможные результаты работы алгоритмов обнаружения текста

Обнаружение текста – чертежи и графики
Обнаружение текстовых областей
Определение угла поворота текстовых строк
Короткие

План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

Представление цифровых изображений
Растровое изображение

Представление цифровых изображений
RGB – распространенная модель цвета
Каждый пиксель задается тремя значениями: red,

Градиент изображения
Градиент направлен в сторону наибольшего изменения интенсивности
Направление градиента:
Величина градиента:

Вычисление градиента изображения
Roberts:
Prewitt:
Sobel:
Дискретный случай:

Выделение границ: примеры
Sobel
Canny
Исходное

Пороговая бинаризация
Светлый объект на темном фоне
Два светлых объекта на темном фоне
Глобальная –

Преобразование Хафа (Hough transform)
x
y
m
b
m0
b0
image space
Hough space
Для данного набора точек (x, y)

Преобразование Хафа (Hough transform)
x
y
m
b
image space
Hough space
x0
y0
Для данного набора точек (x, y)

План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

Основные задачи
Печатные документы
Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation,

Основные задачи
Печатные документы
Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation,

Projection profiles and XY-cuts
Вертикальная проекция
Горизонтальная проекция
Fig. credit: Y.Y. Tang et al.

Результат алгоритма Docstrum
Методы «снизу-вверх»
Fig. credit: A. Namboodiri et al.

Использование диаграмм Вороного
Методы «снизу-вверх»
Fig. credit: A. Namboodiri et al.

Основные задачи
Печатные документы
Определение поворота текста (page rotation, skew detection)
Обнаружение текстовых строк (text

План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

Почему не работают традиционные методы?
Фотографии
Большое разнообразие шрифтов
Разнообразие расположений и направлений текстовых строк
Короткие

Классификация подходов
Фотографии
Text detection and localization
Texture-based
Region-based
CC-based
Edge-based
K. Jung et al.

Методы, основанные на анализе текстуры
Фотографии
Построение пирамиды изображений
Извлечение текстурных признаков (Gabor, Wevelets, DCT)

Методы, основанные на анализе текстуры
Фотографии
Сложный фон
Вычислительно сложные (обработка нескольких масштабов, операции свертки)
Произвольная

Region-based methods (bottom-up)
Фотографии
Выделение компонент связности на основе локальных признаков (близкий цвет или

Region-based methods
Фотографии
Произвольный размер шрифта
Произвольная направленность текста
Просты в реализации
Сложный фон
Шум и нерезкость изображения
Используют

Stroke Width Transform (SWT)
B. Epshtein et al.
Исходное изображение
Результат SWT
После фильтрации
по признаку постоянства ширины

Обнаружение текста при помощи SWT
B. Epshtein et al.

Вычисление SWT
Фрагмент штриха
p – пиксель на границе штриха, q – пиксель на

Обнаружение текста с помощью SWT
Границы для нерезких изображений, низкого разрешения – ☹
Погрешность

Комбинированные методы
Y.-F. Pan et al.

Шаг 1 – анализ текстуры
Комбинированные методы
Y.-F. Pan et al.

Шаг 2 – анализ компонент связности
Комбинированные методы
Y.-F. Pan et al.

Шаг 3 – выделение текстовых строк и слов
Комбинированные методы
Y.-F. Pan et al.

Robust Reading Competitions
ICDAR (2003, 2005, 2009, 2011)
Распознавание символов
Распознавание слов
Локализация текста
Распознавание текста

План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы, компоненты

Графики и диаграммы
Анализ компонент связности по цвету

Экспериментальная оценка
LocationRecognitionRate = NLoc/NG
LocationPrecisionRate = NLoc/NF
TextPrecisionRate =

Screenshots
(+) Быстрая бинаризация
Время обработки изображения1600x1008
Tesseract OCR: ~6.56 секунд
Данный алгоритм: ~0.45 seconds
(–) Требует