Семантическая сегментация

Февраль 12, 2021

Главная
Разное
Семантическая сегментация

Содержание

2. Наивная классификация Нужно классифицировать каждый пиксель 1 МП на картинку! Что можно сказать про 1 пиксел?
3. Наивная классификация Сегментируем картинку, затем классифицируем сегменты Классифицируем каждый пиксель по окрестности
4. Пространственная поддержка 50x50 Patch 50x50 Patch По небольшой окрестности зачастую невозможно правильно определить метку Пространственная поддержка
5. Построение решения Задача / Данные Элемент Пиксель Сегмент Классификация пикселов / регионов Признаки для классификации Метод
6. Цель: 7 геометрических классов Земля Вертикальные стены Плоскости: смотрящие влево (?), Прямо ( ), Направо (?)
7. Размеченные данные 300 изображений из гугла
8. Признаки Положение
9. Сегментация изображений Использование нескольких вариантов сегментации (с разными параметрами) Решение, какие сегменты хорошие, откладывается на потом
10. Что мы хотим узнать: Хороший ли это сегмент? Если сегмент хороший, то какая у него метка?
11. Классификация … … Для каждого сегмента вычисляется: - P(good segment | data) P(label | good segment,
12. Разметка изображений … Размеченные сегментации Размеченные пиксели
13. Вероятностная разметка Support Vertical Sky V-Left V-Center V-Right V-Porous V-Solid
14. Результат Вход Ручная разметка Результат алгоритма
15. Изображения из помещений Вход Ручная разметка Результат
16. Рисунки Вход Результат
17. Приложение: Automatic Photo Pop-up (SIGGRAPH’05) Изображение Метки
18. Automatic Photo Pop-up
19. TextonBoost J. Shotton, J. Winn, C. Rother, A. Criminisi, TextonBoost: Joint Appearance, Shape and Context Modeling
20. Data and Classes Goal: assign every pixel to a label MSRC-21 database (“void” label ignored for
21. Марковские Случайные Поля Независимая классификация Применяем обычный метод классификации (SVM, бустинг и т.д.) Схема Марковских Случайных
22. Условные случайные поля МСП для совместной оценки разметки случайных переменных (c), при условии всех данных (x)
23. Вывод (Inference) Вывод = поиск наилучшей совместной разметки NP-полная задача в общем случае Argmax-разметка Попарные потенциалы
24. Обзор метода Модель TextonBoost на основе CRF 4-х связанные окрестности Параметры обучаются независимо Вывод GraphCut VS
25. Форма и текстура (Shape & Texture) Первая и главная компонента модели Текстоны Фильтруем изображение банком фильтров
26. Моделирование формы Шаг 1: получили карту текстонов Шаг 2: Фильтры формы (Shape Filters) Для каждого текстона
27. Фильтры формы Пара: Отклики v(i, r, t) Большие области обеспечивают большую пространственную поддержку Рассчет через интегральные
28. feature response image v(i, r1, t1) feature response image v(i, r2, t2) Форма задается положением текстонов
29. summed response images v(i, r1, t1) + v(i, r2, t2) Форма задается положением текстонов ( ,
30. Обучение Используется бустинг Обычный бустинг Для каждого пикселя Для каждой возможной маски Для каждого текстона Считаем
31. Первый результат Только форма и текстура: 69.6% shape-texture Точность попиксельной сегментации Slides from Shotton’s ECCV talk
32. Уточняем разметку Добавляем границы Потенциал границ Используем попарные потенциалы для определения и подчеркивания границ Идея: Если
33. Точность Форма-текстура: 69.6% + границы: 70.3% shape-texture + edge Точность Попиксельной сегментации Slides from Shotton’s ECCV
34. Положение объектов Положение Нормализуем координаты по всем изображениям Посчитываем частоту появления объектов в данной точке изображения
35. Моделирование цвета Цвет Обучаем модель цвета только по изображению Идея Используем классификацию по другим признакам как
36. Общий результат Форма и текстура: 69.6% + границ: 70.3% + цвет: 72.0% + положение: 72.2% shape-texture
37. Результаты Successes
38. Ошибки
40. Скачать презентацию

Наивная классификация
Нужно классифицировать каждый пиксель
1 МП на картинку!
Что можно сказать про

1 пиксел?
Классификация окрестности пиксела

Наивная классификация
Сегментируем картинку, затем классифицируем сегменты
Классифицируем каждый пиксель по окрестности

Пространственная поддержка
50x50 Patch
50x50 Patch
По небольшой окрестности зачастую невозможно правильно определить метку
Пространственная поддержка
Необходимо

каким-то образом задавать метки для всех пикселов в совокупности

Построение решения
Задача / Данные
Элемент
Пиксель
Сегмент
Классификация пикселов / регионов
Признаки для классификации
Метод классификации (бустинг,

лес, SVM)
Расширение пространственной поддержки
Множественные сегментации
Случайные поля

Цель: 7 геометрических классов
Земля
Вертикальные стены
Плоскости: смотрящие влево (?), Прямо ( ), Направо

(?)
Другоеr: Твердые (X), Дырявые (O)
Небо

Уличные изображения

Hoiem et al 2005

Размеченные данные
300 изображений из гугла

Признаки
Положение

Сегментация изображений
Использование нескольких вариантов сегментации (с разными параметрами)
Решение, какие сегменты хорошие, откладывается

на потом

…

Что мы хотим узнать:
Хороший ли это сегмент?
Если сегмент хороший, то какая у

него метка?
Обучаем модель по размеченным данным
Бустинг на решающих деревьях

Классификация областей

P(good segment | data)

P(label | good segment, data)

Классификация
…
…
Для каждого сегмента вычисляется:
- P(good segment | data) P(label | good

segment, data)

Разметка изображений
…
Размеченные сегментации
Размеченные пиксели

Вероятностная разметка
Support
Vertical
Sky
V-Left
V-Center
V-Right
V-Porous
V-Solid

Результат
Вход
Ручная разметка
Результат алгоритма

Изображения из помещений
Вход
Ручная разметка
Результат

Рисунки
Вход
Результат

Приложение: Automatic Photo Pop-up (SIGGRAPH’05)
Изображение
Метки

Automatic Photo Pop-up

TextonBoost
J. Shotton, J. Winn, C. Rother, A. Criminisi, TextonBoost: Joint Appearance, Shape

and Context Modeling for Multi-Class Object Recognition and Segmentation, ECCV 2006

Data and Classes
Goal: assign every pixel to a label
MSRC-21 database (“void” label

ignored for training and testing)

Марковские Случайные Поля
Независимая классификация
Применяем обычный метод классификации (SVM, бустинг и т.д.)
Схема Марковских

Случайных Полей (MRF) для совместной классификации
Каждый пиксел – вершина неориентированного графа
Связи между пикселами задаются ребрами графа
Why?

Условные случайные поля
МСП для совместной оценки разметки случайных переменных (c), при условии

всех данных (x)
Модель совместного распределения
Ψ(1) – модель локальной оценки качества метки
Ψ(2)- - модель попарной оценки качества разметки

Images from Szummer DAR’05

Вывод (Inference)
Вывод = поиск наилучшей совместной разметки
NP-полная задача в общем случае
Argmax-разметка
Попарные

потенциалы должны удовлетворять условию субмодулярности
Разрезы графов (GraphCuts)
Не-субмодулярные потенциалы
Quadratic Pseudo-Boolean Optimization (QPBO)
Разметка с оценкой достоверности
Belief Propagation, TRW
Приближенное решение при наличии циклов
Сложность экспоненциально зависит от размера клики
Поэтому в основном рассматриваются модели с кликой не выше 2 (попарные)

Слайд 24

Обзор метода
Модель TextonBoost на основе CRF
4-х связанные окрестности
Параметры обучаются независимо
Вывод GraphCut
VS

Слайд 25

Форма и текстура (Shape & Texture)
Первая и главная компонента модели
Текстоны
Фильтруем изображение банком

фильтров (17 фильтров)
Каждый фильтр – вычисление определенной характеристики/статистики окрестности точки
Получаем 17 признаков для каждого пиксела (вектор-признаки)
Кластеризуем список всех вектор-признаков (400 кластеров)
Каждые кластер – «текстон»
Квантуем каждый пиксель к ближайшему текстону (карта текстонов)

Слайд 26

Моделирование формы
Шаг 1: получили карту текстонов
Шаг 2: Фильтры формы (Shape Filters)
Для каждого

текстона t
Вход
Карта текстонов
(Прямоугольная маска r, текстон t)
Положение пикселя i
Выход
Площадь в маске r, отвечающая t
Результат – гистограмма откликов по окрестностям

Слайд 27

Фильтры формы
Пара:
Отклики v(i, r, t)
Большие области обеспечивают большую пространственную поддержку
Рассчет через интегральные

изображения

rectangle r

texton t

(

)

v(i1, r, t) = a

v(i2, r, t) = 0

v(i3, r, t) = a/2

appearance context

up to 200 pixels

Slides from Shotton’s ECCV talk

Слайд 28

feature response image
v(i, r1, t1)
feature response image
v(i, r2, t2)
Форма задается положением текстонов
texton

map

ground truth

texton map

Slides from Shotton’s ECCV talk

Слайд 29

summed response images
v(i, r1, t1) + v(i, r2, t2)
Форма задается положением текстонов
(
,
)
(r1,

t1) =

(

)

(r2, t2) =

texton map

ground truth

texton map

summed response images
v(i, r1, t1) + v(i, r2, t2)

texton map

Слайд 30

Обучение
Используется бустинг
Обычный бустинг
Для каждого пикселя
Для каждой возможной маски
Для каждого текстона
Считаем признак
Ускоренная версия
Для

каждого пикселя в уменьшенном изображении
Для 10 случайных масок
Для каждого текстона (K=400)
Считаем признаки
42 часа на 276 изображениях

Слайд 31

Первый результат
Только форма и текстура: 69.6%
shape-texture
Точность
попиксельной
сегментации
Slides from Shotton’s ECCV talk

Слайд 32

Уточняем разметку
Добавляем границы
Потенциал границ
Используем попарные потенциалы для определения и подчеркивания границ
Идея:
Если метки

одинаковые, разница пикселей должна быть маленькой
Если метки разные, разница пикселей должна быть большой
Модель Поттса, допускает разрезы графов

Слайд 33

Точность
Форма-текстура: 69.6%
+ границы: 70.3%
shape-texture
+ edge
Точность
Попиксельной
сегментации
Slides from Shotton’s ECCV talk

Слайд 34

Положение объектов
Положение
Нормализуем координаты по всем изображениям
Посчитываем частоту появления объектов в данной точке

изображения
Ncow, = 1, N = 3

Think Naïve Bayes

Prevent overfit (tuned)

Слайд 35

Моделирование цвета
Цвет
Обучаем модель цвета только по изображению
Идея
Используем классификацию по другим признакам как

исходные параметры
Обучаем модель смеси гауссиан (кластеризация цветов)
Каждый класс – свои веса смеси
Обучаем веса итеративным EM-алгоритмом

Слайд 36

Общий результат
Форма и текстура: 69.6%
+ границ: 70.3%
+ цвет: 72.0%
+ положение: 72.2%
shape-texture
+ edge
+

colour & location

Точность
Попиксельной
сегментации

Slides from Shotton’s ECCV talk

Семантическая сегментация

Содержание

Наивная классификацияНужно классифицировать каждый пиксель 1 МП на картинку!Что можно сказать про

Наивная классификацияСегментируем картинку, затем классифицируем сегментыКлассифицируем каждый пиксель по окрестности

Пространственная поддержка50x50 Patch50x50 PatchПо небольшой окрестности зачастую невозможно правильно определить меткуПространственная поддержкаНеобходимо

Построение решенияЗадача / ДанныеЭлемент ПиксельСегментКлассификация пикселов / регионовПризнаки для классификацииМетод классификации (бустинг,

Цель: 7 геометрических классовЗемляВертикальные стеныПлоскости: смотрящие влево (?), Прямо ( ), Направо

Размеченные данные 300 изображений из гугла

ПризнакиПоложение

Сегментация изображенийИспользование нескольких вариантов сегментации (с разными параметрами)Решение, какие сегменты хорошие, откладывается

Что мы хотим узнать:Хороший ли это сегмент?Если сегмент хороший, то какая у

Классификация……Для каждого сегмента вычисляется: - P(good segment | data) P(label | good

Разметка изображений…Размеченные сегментацииРазмеченные пиксели

Вероятностная разметкаSupportVerticalSkyV-LeftV-CenterV-RightV-PorousV-Solid

РезультатВходРучная разметкаРезультат алгоритма

Изображения из помещенийВходРучная разметкаРезультат

РисункиВходРезультат

Приложение: Automatic Photo Pop-up (SIGGRAPH’05)ИзображениеМетки

Automatic Photo Pop-up

TextonBoostJ. Shotton, J. Winn, C. Rother, A. Criminisi, TextonBoost: Joint Appearance, Shape

Data and ClassesGoal: assign every pixel to a labelMSRC-21 database (“void” label

Марковские Случайные ПоляНезависимая классификацияПрименяем обычный метод классификации (SVM, бустинг и т.д.)Схема Марковских

Условные случайные поляМСП для совместной оценки разметки случайных переменных (c), при условии

Вывод (Inference)Вывод = поиск наилучшей совместной разметкиNP-полная задача в общем случаеArgmax-разметка Попарные

Обзор методаМодель TextonBoost на основе CRF4-х связанные окрестностиПараметры обучаются независимоВывод GraphCutVS

Форма и текстура (Shape & Texture)Первая и главная компонента моделиТекстоныФильтруем изображение банком

Моделирование формыШаг 1: получили карту текстоновШаг 2: Фильтры формы (Shape Filters)Для каждого

Фильтры формы Пара:Отклики v(i, r, t)Большие области обеспечивают большую пространственную поддержкуРассчет через интегральные

feature response imagev(i, r1, t1)feature response imagev(i, r2, t2)Форма задается положением текстоновtexton

summed response imagesv(i, r1, t1) + v(i, r2, t2)Форма задается положением текстонов(,)(r1,

ОбучениеИспользуется бустингОбычный бустингДля каждого пикселяДля каждой возможной маскиДля каждого текстонаСчитаем признакУскоренная версияДля

Первый результатТолько форма и текстура: 69.6%shape-textureТочность попиксельнойсегментацииSlides from Shotton’s ECCV talk

Уточняем разметкуДобавляем границыПотенциал границИспользуем попарные потенциалы для определения и подчеркивания границИдея:Если метки

ТочностьФорма-текстура: 69.6% + границы: 70.3%shape-texture+ edgeТочностьПопиксельнойсегментацииSlides from Shotton’s ECCV talk

Положение объектовПоложениеНормализуем координаты по всем изображениямПосчитываем частоту появления объектов в данной точке

Моделирование цветаЦветОбучаем модель цвета только по изображениюИдеяИспользуем классификацию по другим признакам как

Общий результатФорма и текстура: 69.6% + границ: 70.3% + цвет: 72.0% + положение: 72.2%shape-texture+ edge+

РезультатыSuccesses

Ошибки

Похожие презентации

Наивная классификация
Нужно классифицировать каждый пиксель
1 МП на картинку!
Что можно сказать про

Наивная классификация
Сегментируем картинку, затем классифицируем сегменты
Классифицируем каждый пиксель по окрестности

Пространственная поддержка
50x50 Patch
50x50 Patch
По небольшой окрестности зачастую невозможно правильно определить метку
Пространственная поддержка
Необходимо

Построение решения
Задача / Данные
Элемент
Пиксель
Сегмент
Классификация пикселов / регионов
Признаки для классификации
Метод классификации (бустинг,

Цель: 7 геометрических классов
Земля
Вертикальные стены
Плоскости: смотрящие влево (?), Прямо ( ), Направо

Размеченные данные
300 изображений из гугла

Признаки
Положение

Сегментация изображений
Использование нескольких вариантов сегментации (с разными параметрами)
Решение, какие сегменты хорошие, откладывается

Что мы хотим узнать:
Хороший ли это сегмент?
Если сегмент хороший, то какая у

Классификация
…
…
Для каждого сегмента вычисляется:
- P(good segment | data) P(label | good

Разметка изображений
…
Размеченные сегментации
Размеченные пиксели

Вероятностная разметка
Support
Vertical
Sky
V-Left
V-Center
V-Right
V-Porous
V-Solid

Результат
Вход
Ручная разметка
Результат алгоритма

Изображения из помещений
Вход
Ручная разметка
Результат

Рисунки
Вход
Результат

Приложение: Automatic Photo Pop-up (SIGGRAPH’05)
Изображение
Метки

TextonBoost
J. Shotton, J. Winn, C. Rother, A. Criminisi, TextonBoost: Joint Appearance, Shape

Data and Classes
Goal: assign every pixel to a label
MSRC-21 database (“void” label

Марковские Случайные Поля
Независимая классификация
Применяем обычный метод классификации (SVM, бустинг и т.д.)
Схема Марковских

Условные случайные поля
МСП для совместной оценки разметки случайных переменных (c), при условии

Вывод (Inference)
Вывод = поиск наилучшей совместной разметки
NP-полная задача в общем случае
Argmax-разметка
Попарные

Обзор метода
Модель TextonBoost на основе CRF
4-х связанные окрестности
Параметры обучаются независимо
Вывод GraphCut
VS

Форма и текстура (Shape & Texture)
Первая и главная компонента модели
Текстоны
Фильтруем изображение банком

Моделирование формы
Шаг 1: получили карту текстонов
Шаг 2: Фильтры формы (Shape Filters)
Для каждого

Фильтры формы
Пара:
Отклики v(i, r, t)
Большие области обеспечивают большую пространственную поддержку
Рассчет через интегральные

feature response image
v(i, r1, t1)
feature response image
v(i, r2, t2)
Форма задается положением текстонов
texton

summed response images
v(i, r1, t1) + v(i, r2, t2)
Форма задается положением текстонов
(
,
)
(r1,

Обучение
Используется бустинг
Обычный бустинг
Для каждого пикселя
Для каждой возможной маски
Для каждого текстона
Считаем признак
Ускоренная версия
Для

Первый результат
Только форма и текстура: 69.6%
shape-texture
Точность
попиксельной
сегментации
Slides from Shotton’s ECCV talk

Уточняем разметку
Добавляем границы
Потенциал границ
Используем попарные потенциалы для определения и подчеркивания границ
Идея:
Если метки

Точность
Форма-текстура: 69.6%
+ границы: 70.3%
shape-texture
+ edge
Точность
Попиксельной
сегментации
Slides from Shotton’s ECCV talk

Положение объектов
Положение
Нормализуем координаты по всем изображениям
Посчитываем частоту появления объектов в данной точке

Моделирование цвета
Цвет
Обучаем модель цвета только по изображению
Идея
Используем классификацию по другим признакам как

Общий результат
Форма и текстура: 69.6%
+ границ: 70.3%
+ цвет: 72.0%
+ положение: 72.2%
shape-texture
+ edge
+

Результаты
Successes