[강의1] Multi-armed bandit 문제

수학적 정의

다시 말해, 즉각적인 보상만 관찰할 수 있으며, “다른 팔을 당겼다면 어떤 보상을 얻었을까?”는 알 수 없습니다. 따라서 **탐험(Exploration)**과 활용(Exploitation) 간의 균형을 맞추는 것이 핵심입니다.

Sequentiality (순차성)의 부재
- MAB: 각 시도가 독립적이며, 현재 선택이 미래의 상태에 영향을 주지 않습니다.
- RL (MDP): 현재 선택이 미래의 상태 전이와 보상에 영향을 주며, 장기적인 결과까지 고려해야 합니다.
State 개념의 부재
- MAB: 상태(state)가 존재하지 않음. 단순히 여러 행동(action) 중 하나를 선택하는 반복 문제.
- RL: 상태(state)가 명시적으로 존재하고, 상태에 따라 최적의 행동이 달라짐.
학습 목표의 차이
- MAB: “가장 좋은 팔(arm)”을 찾는 것. (Exploration vs Exploitation trade-off 해결)
- RL: 상태-행동 순차 의사결정 구조 속에서 **최적 정책(policy)**을 찾는 것. 즉, 단기/장기 보상을 모두 고려.