ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕ

Содержание

Слайд 2

Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)

Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)

Слайд 3

Соотношение методов ААУ и обучения с подкреплением

Образы - условия
Эмоциональная оценка результата

Соотношение методов ААУ и обучения с подкреплением Образы - условия Эмоциональная оценка
действия

ААУ

Reinforcement
Learning

Состояния
Подкрепление
(вознаграждение)

Слайд 4

Аппроксимация vs. Дискретизация

Набор входных параметров: p1 … pn
Множество состояний {si}
Набор доступных действий

Аппроксимация vs. Дискретизация Набор входных параметров: p1 … pn Множество состояний {si}
a1 …. ak
Оценка ожидаемого подкрепления Q(si, ai)
Аппроксимация
Est(p1 … pn, ai): {(p1 … pn)} x ai → R
Дискретизация
{(p1 … pn)} -> {si},
Est(s,a): {si} x {ai} → R

Слайд 5

Проблема дискретизации пространства признаков

- При малом числе состояний низкая точность, при большом

Проблема дискретизации пространства признаков - При малом числе состояний низкая точность, при
– долгое обучение.
- Кроме того, при любом фиксированном числе градаций для каждого из параметров число состояний растет экспоненциально при линейном росте числа параметров. («комбинаторный взрыв»)

параметр2

параметр1

?

Мало состояний

Много состояний

параметр N

Слайд 6

Предлагаемое решение

последовательная сегментация пространства признаков в процессе обучения систем
В результате

Предлагаемое решение последовательная сегментация пространства признаков в процессе обучения систем В результате
образуется дерево вложенных состояний

обучение

обучение

Слайд 7

Основные подзадачи

Производить ли разделение очередного состояния на более мелкие и когда?
Dev(Est(sold, ab0)

Основные подзадачи Производить ли разделение очередного состояния на более мелкие и когда?
>= min( Dev( Est(snew1, ab1) , Dev( Est(snew2, ab2) )
Sold – исходное состояние, snew1, snew2 – дочерние состояния
ab0, ab1, ab2 – лучшие действия для соответсвующих состояний
Если да, то какой вариант разбиения выбрать? (как определить направление и пропорции?)
max( Est(snew1, ab1) , Est(snew2, ab2) ) → max

?

Слайд 8

Свойства разработанного метода

Итоговое разбиение пространства признаков на состояния неравномерно и отвечает специфике

Свойства разработанного метода Итоговое разбиение пространства признаков на состояния неравномерно и отвечает
конкретной задачи.
Определенное улучшение качества работы возможно в самом начале обучения без накопления большой статистики
Накопление статистики для различных состояний происходит независимо (отсутствует «катастрофическое забывание»)
Получившийся в результате обучения закон управления может быть представлен в виде дерева решений и проанализирован человеком

Слайд 9

Экспериментальное исследование

Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической модели

Экспериментальное исследование Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической
наноспутника с адаптивной системой управления

Слайд 10

Результаты экспериментального исследования

Пример графика изменения качества управления при обучении с фиксированным набором

Результаты экспериментального исследования Пример графика изменения качества управления при обучении с фиксированным
состояний…
И с использованием алгоритма динамической сегментации состояний
Имя файла: ДИНАМИЧЕСКАЯ-СЕГМЕНТАЦИЯ-ПРОСТРАНСТВА-ПРИЗНАКОВ-ДЛЯ-СИСТЕМ-АВТОНОМНОГО-АДАПТИВНОГО-УПРАВЛЕНИЯ-И-СИСТЕМ-ОБУЧЕНИЯ-С-ПОДКРЕПЛЕНИЕ.pptx
Количество просмотров: 125
Количество скачиваний: 0