정의: 특정 정책 π가 주어졌을 때, 그 정책을 따랐을 때 상태 s에서 얻을 수 있는 **기대 누적 보상(가치 함수 $V_π(s)$)**를 추정하는 것
수식:
$$ V_{\pi}(s) = \mathbb{E}{\pi}[G_t \mid s_t = s] \\ G_t = r_t + \gamma r{t+1} + \gamma^2 r_{t+2} + \cdots $$
방법:
Model-based: MDP의 environment dynamics (P, R)을 알 때 Bellman equation을 반복해서 풀어 $V_π(s)$를 계산
$$ V_{\pi}(s) = \sum_{a} \pi(a \mid s) \sum_{s', r} P(s', r \mid s, a),[r + \gamma V_{\pi}(s')] $$
Model-free: environment dynamics을 모를 때 경험 trajectory를 이용해 Monte Carlo(MC)나 Temporal Difference(TD) 방법으로 추정
Policy Evaluation: 현재 정책 π에 대해 Vπ(s)를 계산
Policy Improvement: Vπ(s)를 이용해 더 나은 정책 π′을 도출
$$ \pi'(s) = \arg\max_{a} \sum_{s', r} P(s', r \mid s, a)[r + \gamma V_{\pi}(s')] $$
$\pi' = \pi$이면 종료, 아니면 다시 반복
| 항목 | Policy Evaluation | Policy Iteration |
|---|---|---|
| 목적 | 주어진 정책의 성능(가치) 평가 | 최적 정책 도출 |
| 입력 | 정책 π (고정) | 초기 정책 (임의) |
| 출력 | $V_{\pi}(s)$ | 최적 정책 $\pi^*$ |
| 활용 | 현재 정책을 이해·분석 | 정책 최적화 알고리즘의 핵심 단계 |