<aside> 📌

대부분의 RL 알고리즘은 DP의 아이디어는 가져오되, DP 자체를 그대로 쓰지 않는다.

</aside>

강화학습의 핵심은 환경의 정확한 모델(P, R)을 직접 학습하는 것이 아니라, 가치 함수(V, Q)나 정책(π)을 경험을 통해 직접 근사/학습하는 데 있다. 가치나 정책 평가는 policy iteration의 틀(평가→개선)을 따르는 정책 결정(control)에 직접적인 영향을 준다. (DP에서의 policy iteration 알고리즘을 직접 돌리는 건 아니다.)


1. 동적 프로그래밍(DP) 기반 RL

👉 하지만 실제 환경에서는 P, R을 알 수 없는 경우가 많기 때문에 순수 DP는 실용적이지 않음.


2. Model-free RL


3. Hybrid (Model-based RL)