Policy Evaluation


Policy Iteration


차이점 요약

항목 Policy Evaluation Policy Iteration
목적 주어진 정책의 성능(가치) 평가 최적 정책 도출
입력 정책 π (고정) 초기 정책 (임의)
출력 $V_{\pi}(s)$ 최적 정책 $\pi^*$
활용 현재 정책을 이해·분석 정책 최적화 알고리즘의 핵심 단계