[강의2] Policy Evaluation vs. Policy Iteration

Policy Evaluation

정의: 특정 정책 π가 주어졌을 때, 그 정책을 따랐을 때 상태 s에서 얻을 수 있는 **기대 누적 보상(가치 함수 $V_π(s)$)**를 추정하는 것
수식:

$$ V_{\pi}(s) = \mathbb{E}{\pi}[G_t \mid s_t = s] \\ G_t = r_t + \gamma r{t+1} + \gamma^2 r_{t+2} + \cdots $$
방법:
- Model-based: MDP의 environment dynamics (P, R)을 알 때 Bellman equation을 반복해서 풀어 $V_π(s)$를 계산
  
  $$ V_{\pi}(s) = \sum_{a} \pi(a \mid s) \sum_{s', r} P(s', r \mid s, a),[r + \gamma V_{\pi}(s')] $$
- Model-free: environment dynamics을 모를 때 경험 trajectory를 이용해 Monte Carlo(MC)나 Temporal Difference(TD) 방법으로 추정