[강의1] 강화학습에서 utility의 개념 (PPT p.13)

13쪽 슬라이드에서는 Decision optimization을 설명하면서 “Explicit notion of utility of decisions”라는 표현이 등장합니다.

즉, 여기서 utility는 의사결정의 결과가 얼마나 좋은지(혹은 나쁜지)를 수치적으로 표현하는 개념을 말합니다.

맥락: Decision Optimization

맥락: 강화학습은 단순히 즉각적인 보상만을 고려하는 것이 아니라, 일련의 의사결정을 내릴 때 어떤 선택이 전체적으로 가장 “좋은” 결과를 가져오는지를 다룹니다.
예시 (교재 내 설명): 두 도시 간 최소 거리 경로를 찾는 문제는 각 선택(어떤 길을 갈지)의 utility가 거리라는 기준으로 측정되고, 이를 최소화하는 것이 목적입니다.
따라서 utility는 **“좋은 결정을 내렸을 때 얻을 수 있는 이익이나 가치”**를 수치로 모델링한 것이라 할 수 있습니다.

Utility ↔ Reward

강화학습에서의 reward는 즉각적인 utility에 해당합니다. 한 번의 행동이 얼마나 좋은지를 나타내는 짧은 단위의 측정입니다.
Utility ↔ Value Function

실제 RL에서는 장기적인 성과를 고려해야 하므로, 단일 reward가 아니라 **expected cumulative reward (기댓값 형태의 누적 보상)**을 정의합니다.

이는 곧 value function이며, 특정 상태나 정책이 얼마나 “유용한가”를 나타내는 utility의 일반화된 표현입니다.

예: Vπ(s) = Eπ[rₜ + γrₜ₊₁ + γ²rₜ₊₂ + … | sₜ = s]

→ 어떤 상태 s에서 정책 π를 따를 때 얻을 수 있는 총 기대 효용.
Utility as Optimization Target

강화학습의 목표는 “utility를 최대화하는 정책을 찾는 것”입니다. 따라서 utility는 RL 문제 전체를 정의하는 중심 개념이라 할 수 있습니다.

Utility의 정의 (교재 맥락): 의사결정이 가져오는 결과의 질을 수치로 표현한 것.
맥락: 최적 의사결정을 내리기 위해 utility를 명시적으로 고려해야 한다는 점에서 등장.
RL과의 관계:
- Reward는 단기 utility
- Value function은 장기 utility
- RL의 목표는 이 utility를 최적화하는 정책을 학습하는 것.

혹시 제가 교재의 utility = value function으로 연결되는 부분을 수식 중심으로 좀 더 엄밀히 정리해드릴까요? (예: reward와 utility의 차이, expected utility 개념을 MDP 정의에 맞춰서 전개)