[강의2] 강화학습은 동적 프로그래밍을 적용하여 최적(근사)해를 찾는 건가?

<aside> 📌

대부분의 RL 알고리즘은 DP의 아이디어는 가져오되, DP 자체를 그대로 쓰지 않는다.

</aside>

강화학습의 핵심은 환경의 정확한 모델(P, R)을 직접 학습하는 것이 아니라, 가치 함수(V, Q)나 정책(π)을 경험을 통해 직접 근사/학습하는 데 있다. 가치나 정책 평가는 policy iteration의 틀(평가→개선)을 따르는 정책 결정(control)에 직접적인 영향을 준다. (DP에서의 policy iteration 알고리즘을 직접 돌리는 건 아니다.)

1. 동적 프로그래밍(DP) 기반 RL

가정: 환경의 **dynamics (P, R)**를 모두 알고 있음.
이 경우 policy evaluation → policy iteration/value iteration 같은 DP 알고리즘을 직접 적용하여 정확한 최적 정책을 구할 수 있습니다.
예: 작은 MDP 장난감 문제(Gridworld 등).

👉 하지만 실제 환경에서는 P, R을 알 수 없는 경우가 많기 때문에 순수 DP는 실용적이지 않음.

2. Model-free RL

대부분의 RL 알고리즘은 P, R을 모르고 경험 trajectory만 접근 가능하다고 가정합니다.
그래서 DP의 policy evaluation 단계를 샘플 기반 (MC, TD) 평가로 대체합니다.
예:
- Q-learning = TD로 Q함수 근사 (policy evaluation 역할) + greedy 정책 개선.
- SARSA = on-policy TD로 Q_π 추정 + 개선.
즉, policy evaluation을 한다고 해서 곧장 policy iteration/value iteration을 직접 적용하지는 않음.
대신 DP 알고리즘의 아이디어를 “샘플 기반 근사”로 바꾼 것이 RL 알고리즘입니다.

3. Hybrid (Model-based RL)

일부 알고리즘에서는 학습 과정에서 P̂, R̂ (추정된 dynamics)를 모델링한 뒤,

**그 모델 위에서 동적 프로그래밍 (policy iteration/value iteration)**을 적용합니다.
예: Dyna-Q, Model-based Planning.
이 경우는 말씀하신 것처럼 학습 후 DP 기법을 적용해서 (근사) 최적 정책을 찾는 방식이 됩니다.