수학적 정의


문제 상황

다시 말해, 즉각적인 보상만 관찰할 수 있으며, “다른 팔을 당겼다면 어떤 보상을 얻었을까?”는 알 수 없습니다. 따라서 **탐험(Exploration)**과 활용(Exploitation) 간의 균형을 맞추는 것이 핵심입니다.


RL과의 차이

  1. Sequentiality (순차성)의 부재
  2. State 개념의 부재
  3. 학습 목표의 차이