Содержание
- 3. Зачем? Необходимо для дальнейшего распознавания текста (OCR) Документы – page layout analysis Фотографии, чертежи, графики –
- 4. Компоненты системы извлечения текста Fig. credit: J. Gllavata + Text Enhancement
- 5. Приложения Оцифровка документов Индексирование и извлечение информации из графиков и чертежей Индексирование и поиск изображений, автоматическое
- 9. Обнаружение текста – газеты, журналы, книги обнаружение текстовых областей определение угла поворота текста (skew detection) определение
- 10. Обнаружение текста – произвольные изображения Исходное изображение Возможные результаты работы алгоритмов обнаружения текста
- 11. Обнаружение текста – чертежи и графики Обнаружение текстовых областей Определение угла поворота текстовых строк Короткие фрагменты
- 12. План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты
- 13. Представление цифровых изображений Растровое изображение
- 14. Представление цифровых изображений RGB – распространенная модель цвета Каждый пиксель задается тремя значениями: red, green, blue
- 15. Обнаружение границ
- 16. Градиент изображения Градиент направлен в сторону наибольшего изменения интенсивности Направление градиента: Величина градиента:
- 17. Вычисление градиента изображения Roberts: Prewitt: Sobel: Дискретный случай:
- 18. Выделение границ: примеры Sobel Canny Исходное
- 19. Компоненты связности
- 20. Компоненты связности
- 21. Пороговая бинаризация Светлый объект на темном фоне Два светлых объекта на темном фоне Глобальная – порог
- 22. Бинаризация
- 23. Преобразование Хафа (Hough transform) x y m b m0 b0 image space Hough space Для данного
- 24. Преобразование Хафа (Hough transform) x y m b image space Hough space x0 y0 Для данного
- 25. План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты
- 26. Основные задачи Печатные документы Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)
- 27. Основные задачи Печатные документы Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)
- 28. Projection profiles and XY-cuts Вертикальная проекция Горизонтальная проекция Fig. credit: Y.Y. Tang et al.
- 29. Результат алгоритма Docstrum Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.
- 30. Использование диаграмм Вороного Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.
- 31. Основные задачи Печатные документы Определение поворота текста (page rotation, skew detection) Обнаружение текстовых строк (text line
- 32. План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты
- 33. Почему не работают традиционные методы? Фотографии Большое разнообразие шрифтов Разнообразие расположений и направлений текстовых строк Короткие
- 34. Классификация подходов Фотографии Text detection and localization Texture-based Region-based CC-based Edge-based K. Jung et al.
- 35. Методы, основанные на анализе текстуры Фотографии Построение пирамиды изображений Извлечение текстурных признаков (Gabor, Wevelets, DCT)
- 36. Методы, основанные на анализе текстуры Фотографии Сложный фон Вычислительно сложные (обработка нескольких масштабов, операции свертки) Произвольная
- 37. Region-based methods (bottom-up) Фотографии Выделение компонент связности на основе локальных признаков (близкий цвет или принадлежность границе)
- 38. Region-based methods Фотографии Произвольный размер шрифта Произвольная направленность текста Просты в реализации Сложный фон Шум и
- 39. Stroke Width Transform (SWT) B. Epshtein et al. Исходное изображение Результат SWT После фильтрации по признаку
- 40. Обнаружение текста при помощи SWT B. Epshtein et al.
- 41. Вычисление SWT Фрагмент штриха p – пиксель на границе штриха, q – пиксель на противоположной стороне
- 42. Обнаружение текста с помощью SWT Границы для нерезких изображений, низкого разрешения – ☹ Погрешность SWT на
- 43. Комбинированные методы Y.-F. Pan et al.
- 44. Шаг 1 – анализ текстуры Комбинированные методы Y.-F. Pan et al.
- 45. Шаг 2 – анализ компонент связности Комбинированные методы Y.-F. Pan et al.
- 46. Шаг 3 – выделение текстовых строк и слов Комбинированные методы Y.-F. Pan et al. построение минимального
- 47. Robust Reading Competitions ICDAR (2003, 2005, 2009, 2011) Распознавание символов Распознавание слов Локализация текста Распознавание текста
- 48. План лекции Зачем нужны алгоритмы обнаружения текста? Что такое цифровое изображение? Представление цифровых изображений Границы, компоненты
- 49. Графики и диаграммы Анализ компонент связности по цвету
- 50. Экспериментальная оценка LocationRecognitionRate = NLoc/NG LocationPrecisionRate = NLoc/NF TextPrecisionRate = NTxt/NF TextRecognitionRate = NTxt/NG NLoc –
- 51. Screenshots (+) Быстрая бинаризация Время обработки изображения1600x1008 Tesseract OCR: ~6.56 секунд Данный алгоритм: ~0.45 seconds (–)
- 53. Скачать презентацию