[강의2] (참고) 강화학습 vs. POMDP | Notion

👉 정리하면, 강화학습은 보통 “full observable MDP”를 가정하지만, POMDP에서는 관측이 제한되므로 **추가로 상태 추정(belief update)**이 필요하다는 점이 핵심 차이입니다.

1. 공통점

둘 다 에이전트–환경 상호작용을 통해 최적 정책을 찾는 문제 설정.
둘 다 일반적으로 **environment dynamics (P, R)**를 완전히 알지 못한다고 가정. → 경험 기반 학습 필요.

2. 차이점

(1) 관측 가능성

MDP (강화학습의 기본 가정)

Full observability: 에이전트는 매 시점의 환경 상태 sₜ를 관찰할 수 있음.
즉, policy π(s) = a 는 “현재 상태”를 조건으로 함.

POMDP

Partial observability: 에이전트는 환경의 진짜 상태 sₜ를 알 수 없고, 오직 확률적 관측 oₜ만 얻음.
따라서 정책은 “관측의 히스토리” 또는 “belief state(상태에 대한 확률 분포)”를 기반으로 정의해야 함.

(2) 상태 표현

MDP/RL:

state는 Markov property를 만족한다고 가정 → 미래는 현재 state에만 의존.

POMDP:

관측 oₜ만으로는 Markov property가 깨짐. → belief state b(s) = P(s | history)를 추적해야 Markov property 회복.

(3) 알고리즘적 차이

RL (MDP 기반):

Q-learning, SARSA, Policy Gradient, Actor-Critic 등은 상태를 그대로 쓸 수 있다는 가정에 기초.

POMDP:

belief state 업데이트: bₜ₊₁(s′) ∝ O(oₜ₊₁ | s′, aₜ) ∑ₛ P(s′|s,aₜ) bₜ(s).
이를 기반으로 value iteration / policy search 수행.
실제 RL에서는 Recurrent Neural Networks(RNN) 같은 모델을 써서 관측 히스토리를 내재적으로 요약(belief 근사)하기도 함.

3. 요약

강화학습 (기본 MDP): “현재 상태를 완전히 알 수 있다”는 가정 아래 학습.
POMDP: “현재 상태를 직접 알 수 없고, 확률적 관측만 가능” → belief state 추론 필요.
따라서 POMDP는 RL보다 더 일반적이고 어렵지만, 현실 문제(로봇 센서 노이즈, 금융, 의료 등)에서는 POMDP가 더 자연스러운 모델이 됩니다.