13쪽 슬라이드에서는 Decision optimization을 설명하면서 “Explicit notion of utility of decisions”라는 표현이 등장합니다.

즉, 여기서 utility의사결정의 결과가 얼마나 좋은지(혹은 나쁜지)를 수치적으로 표현하는 개념을 말합니다.


맥락: Decision Optimization


RL에서의 Utility와의 연관 관계

  1. Utility ↔ Reward

    강화학습에서의 reward는 즉각적인 utility에 해당합니다. 한 번의 행동이 얼마나 좋은지를 나타내는 짧은 단위의 측정입니다.

  2. Utility ↔ Value Function

    실제 RL에서는 장기적인 성과를 고려해야 하므로, 단일 reward가 아니라 **expected cumulative reward (기댓값 형태의 누적 보상)**을 정의합니다.

    이는 곧 value function이며, 특정 상태나 정책이 얼마나 “유용한가”를 나타내는 utility의 일반화된 표현입니다.

    예: Vπ(s) = Eπ[rₜ + γrₜ₊₁ + γ²rₜ₊₂ + … | sₜ = s]

    → 어떤 상태 s에서 정책 π를 따를 때 얻을 수 있는 총 기대 효용.

  3. Utility as Optimization Target

    강화학습의 목표는 “utility를 최대화하는 정책을 찾는 것”입니다. 따라서 utility는 RL 문제 전체를 정의하는 중심 개념이라 할 수 있습니다.


정리


혹시 제가 교재의 utility = value function으로 연결되는 부분을 수식 중심으로 좀 더 엄밀히 정리해드릴까요? (예: reward와 utility의 차이, expected utility 개념을 MDP 정의에 맞춰서 전개)