Генерация вероятностных автоматов методами Reinforcement Learning

Февраль 16, 2021

Главная
Разное
Генерация вероятностных автоматов методами Reinforcement Learning

Содержание

2. Стимулирующее обучение
3. Вероятностные автоматы Моделирование сложных систем, имеющих стохастическую природу Построение мобильных агентов
4. Обучение автомата Действие Проверка «слабого условия» Перераспределение вероятностей
5. Применение стимулирующего обучения Работать непосредственно с вероятностной моделью непрактично Генерация автоматной модели
6. Q-learning: статические задачи Обучение Q-функции Порождение оптимальной стратегии
7. Q-learning: стохастические системы Обучение Q-функции Подсчёт вероятностей переходов Сжатие вероятностной модели
8. Пример задачи на двумерном поле Клетка поля определяет текущее состояние мобильного робота Четыре доступных действия Выделенные
9. Тестовый пример
10. Сжатие автоматной модели
12. Скачать презентацию

Слайд 2

Стимулирующее обучение

Стимулирующее обучение

Слайд 3

Вероятностные автоматы
Моделирование сложных систем, имеющих стохастическую природу
Построение мобильных агентов

Вероятностные автоматы Моделирование сложных систем, имеющих стохастическую природу Построение мобильных агентов

Слайд 4

Обучение автомата
Действие
Проверка «слабого условия»
Перераспределение вероятностей

Обучение автомата Действие Проверка «слабого условия» Перераспределение вероятностей

Слайд 5

Применение стимулирующего обучения
Работать непосредственно с вероятностной моделью непрактично
Генерация автоматной модели

Применение стимулирующего обучения Работать непосредственно с вероятностной моделью непрактично Генерация автоматной модели

Слайд 6

Q-learning: статические задачи
Обучение Q-функции
Порождение оптимальной стратегии

Q-learning: статические задачи Обучение Q-функции Порождение оптимальной стратегии

Слайд 7

Q-learning: стохастические системы
Обучение Q-функции
Подсчёт вероятностей переходов
Сжатие вероятностной модели

Q-learning: стохастические системы Обучение Q-функции Подсчёт вероятностей переходов Сжатие вероятностной модели

Слайд 8

Пример задачи на двумерном поле
Клетка поля определяет текущее состояние мобильного робота
Четыре доступных

Пример задачи на двумерном поле Клетка поля определяет текущее состояние мобильного робота

действия
Выделенные клетки
Задача – максимизировать общую прибыль для нескольких мобильных роботов

Слайд 9

Тестовый пример

Тестовый пример

Слайд 10

Сжатие автоматной модели

Сжатие автоматной модели