수학적 정의
문제 상황
- 슬롯머신이 n개 있다고 할 때, 각 머신 i는 확률분포에 따라 보상 rᵢ를 생성합니다.
- 플레이어는 매 시도에서 하나의 머신만 선택할 수 있고, 그 결과 보상만 관찰합니다.
- 장기적으로 어떤 머신이 가장 높은 기댓값을 가지는지 학습하면서, 동시에 보상을 극대화해야 합니다.
다시 말해, 즉각적인 보상만 관찰할 수 있으며, “다른 팔을 당겼다면 어떤 보상을 얻었을까?”는 알 수 없습니다. 따라서 **탐험(Exploration)**과 활용(Exploitation) 간의 균형을 맞추는 것이 핵심입니다.
RL과의 차이
- Sequentiality (순차성)의 부재
- MAB: 각 시도가 독립적이며, 현재 선택이 미래의 상태에 영향을 주지 않습니다.
- RL (MDP): 현재 선택이 미래의 상태 전이와 보상에 영향을 주며, 장기적인 결과까지 고려해야 합니다.
- State 개념의 부재
- MAB: 상태(state)가 존재하지 않음. 단순히 여러 행동(action) 중 하나를 선택하는 반복 문제.
- RL: 상태(state)가 명시적으로 존재하고, 상태에 따라 최적의 행동이 달라짐.
- 학습 목표의 차이
- MAB: “가장 좋은 팔(arm)”을 찾는 것. (Exploration vs Exploitation trade-off 해결)
- RL: 상태-행동 순차 의사결정 구조 속에서 **최적 정책(policy)**을 찾는 것. 즉, 단기/장기 보상을 모두 고려.