[강의1] 강화학습에서 utility의 개념 (PPT p.13)
[강의2] (참고) Partially Observable Markov Decision Process
[강의2] Markov property vs. Memoryless property
[강의2] 강화학습은 동적 프로그래밍을 적용하여 최적(근사)해를 찾는 건가?
[강의2] Policy Evaluation vs. Policy Iteration
[강의2] Kleene’s 고정점 정리와 Policy iteration 수렴 간 연관
[강의2] Banach Fixed-Point Theorem (바나흐 고정점 정리)
[강의2] (참고) Fixed-Point Theorem 종류