ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕ

Февраль 15, 2021

Главная
Разное
ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕ

Содержание

2. Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)
3. Соотношение методов ААУ и обучения с подкреплением Образы - условия Эмоциональная оценка результата действия ААУ Reinforcement
4. Аппроксимация vs. Дискретизация Набор входных параметров: p1 … pn Множество состояний {si} Набор доступных действий a1
5. Проблема дискретизации пространства признаков - При малом числе состояний низкая точность, при большом – долгое обучение.
6. Предлагаемое решение последовательная сегментация пространства признаков в процессе обучения систем В результате образуется дерево вложенных состояний
7. Основные подзадачи Производить ли разделение очередного состояния на более мелкие и когда? Dev(Est(sold, ab0) >= min(
8. Свойства разработанного метода Итоговое разбиение пространства признаков на состояния неравномерно и отвечает специфике конкретной задачи. Определенное
9. Экспериментальное исследование Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической модели наноспутника с адаптивной
10. Результаты экспериментального исследования Пример графика изменения качества управления при обучении с фиксированным набором состояний… И с
12. Скачать презентацию

Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)

Соотношение методов ААУ и обучения с подкреплением
Образы - условия
Эмоциональная оценка результата

действия

ААУ

Reinforcement
Learning

Состояния
Подкрепление
(вознаграждение)

Аппроксимация vs. Дискретизация
Набор входных параметров: p1 … pn
Множество состояний {si}
Набор доступных действий

a1 …. ak
Оценка ожидаемого подкрепления Q(si, ai)
Аппроксимация
Est(p1 … pn, ai): {(p1 … pn)} x ai → R
Дискретизация
{(p1 … pn)} -> {si},
Est(s,a): {si} x {ai} → R

Проблема дискретизации пространства признаков
- При малом числе состояний низкая точность, при большом

– долгое обучение.
- Кроме того, при любом фиксированном числе градаций для каждого из параметров число состояний растет экспоненциально при линейном росте числа параметров. («комбинаторный взрыв»)

параметр2

параметр1

Мало состояний

Много состояний

параметр N

Предлагаемое решение
последовательная сегментация пространства признаков в процессе обучения систем
В результате

образуется дерево вложенных состояний

обучение

Основные подзадачи
Производить ли разделение очередного состояния на более мелкие и когда?
Dev(Est(sold, ab0)

>= min( Dev( Est(snew1, ab1) , Dev( Est(snew2, ab2) )
Sold – исходное состояние, snew1, snew2 – дочерние состояния
ab0, ab1, ab2 – лучшие действия для соответсвующих состояний
Если да, то какой вариант разбиения выбрать? (как определить направление и пропорции?)
max( Est(snew1, ab1) , Est(snew2, ab2) ) → max

Слайд 8

Свойства разработанного метода
Итоговое разбиение пространства признаков на состояния неравномерно и отвечает специфике

конкретной задачи.
Определенное улучшение качества работы возможно в самом начале обучения без накопления большой статистики
Накопление статистики для различных состояний происходит независимо (отсутствует «катастрофическое забывание»)
Получившийся в результате обучения закон управления может быть представлен в виде дерева решений и проанализирован человеком

Слайд 9

Экспериментальное исследование
Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической модели

наноспутника с адаптивной системой управления

Слайд 10

Результаты экспериментального исследования
Пример графика изменения качества управления при обучении с фиксированным набором

состояний…
И с использованием алгоритма динамической сегментации состояний

ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕ

Содержание

Слайд 2

Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)

Слайд 3

Соотношение методов ААУ и обучения с подкреплением
Образы - условия
Эмоциональная оценка результата

Слайд 4

Аппроксимация vs. Дискретизация
Набор входных параметров: p1 … pn
Множество состояний {si}
Набор доступных действий

Слайд 5

Проблема дискретизации пространства признаков
- При малом числе состояний низкая точность, при большом

Слайд 6

Предлагаемое решение
последовательная сегментация пространства признаков в процессе обучения систем
В результате

Слайд 7

Основные подзадачи
Производить ли разделение очередного состояния на более мелкие и когда?
Dev(Est(sold, ab0)

Слайд 8

Свойства разработанного метода
Итоговое разбиение пространства признаков на состояния неравномерно и отвечает специфике

Слайд 9

Экспериментальное исследование
Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической модели

Слайд 10

Результаты экспериментального исследования
Пример графика изменения качества управления при обучении с фиксированным набором

ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕ

Содержание

Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)

Соотношение методов ААУ и обучения с подкреплениемОбразы - условия Эмоциональная оценка результата

Аппроксимация vs. ДискретизацияНабор входных параметров: p1 … pn Множество состояний {si}Набор доступных действий

Проблема дискретизации пространства признаков- При малом числе состояний низкая точность, при большом

Предлагаемое решение последовательная сегментация пространства признаков в процессе обучения системВ результате

Основные подзадачиПроизводить ли разделение очередного состояния на более мелкие и когда?Dev(Est(sold, ab0)

Свойства разработанного методаИтоговое разбиение пространства признаков на состояния неравномерно и отвечает специфике

Экспериментальное исследованиеЭкспериментальное исследование разработанного метода проводилось на компьютерной и на физической модели

Результаты экспериментального исследованияПример графика изменения качества управления при обучении с фиксированным набором

Похожие презентации

Соотношение методов ААУ и обучения с подкреплением
Образы - условия
Эмоциональная оценка результата

Аппроксимация vs. Дискретизация
Набор входных параметров: p1 … pn
Множество состояний {si}
Набор доступных действий

Проблема дискретизации пространства признаков
- При малом числе состояний низкая точность, при большом

Предлагаемое решение
последовательная сегментация пространства признаков в процессе обучения систем
В результате

Основные подзадачи
Производить ли разделение очередного состояния на более мелкие и когда?
Dev(Est(sold, ab0)

Свойства разработанного метода
Итоговое разбиение пространства признаков на состояния неравномерно и отвечает специфике

Экспериментальное исследование
Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической модели

Результаты экспериментального исследования
Пример графика изменения качества управления при обучении с фиксированным набором