강화학습 | Notion

OR-2

정리

Introduction

[강의1] 산업공학에서 배운 MDP 개념

[강의1] 교재 1장 Introduction 정리

[강의1] 강화학습에서 utility의 개념 (PPT p.13)

[강의1] Multi-armed bandit 문제

MDP and Planning

공식

[강의2] (참고) Partially Observable Markov Decision Process

[강의2] (참고) 강화학습 vs. POMDP

[강의2] Markov property vs. Memoryless property

[강의2] 강화학습은 동적 프로그래밍을 적용하여 최적(근사)해를 찾는 건가?

[강의2] Policy Evaluation vs. Policy Iteration

[강의2] V 함수에 기반한 Q 함수 설명

[강의2] Kleene’s 고정점 정리와 Policy iteration 수렴 간 연관

[강의2] Banach Fixed-Point Theorem (바나흐 고정점 정리)

[강의2] (참고) Fixed-Point Theorem 종류

Model-Free Policy Evaluation

[강의3] 교재 5장 Monte Carlo Methods 정리