👉 정리하면, 강화학습은 보통 “full observable MDP”를 가정하지만, POMDP에서는 관측이 제한되므로 **추가로 상태 추정(belief update)**이 필요하다는 점이 핵심 차이입니다.
1. 공통점
- 둘 다 에이전트–환경 상호작용을 통해 최적 정책을 찾는 문제 설정.
- 둘 다 일반적으로 **environment dynamics (P, R)**를 완전히 알지 못한다고 가정. → 경험 기반 학습 필요.
2. 차이점
(1) 관측 가능성
MDP (강화학습의 기본 가정)
- Full observability: 에이전트는 매 시점의 환경 상태 sₜ를 관찰할 수 있음.
- 즉, policy π(s) = a 는 “현재 상태”를 조건으로 함.
POMDP
- Partial observability: 에이전트는 환경의 진짜 상태 sₜ를 알 수 없고, 오직 확률적 관측 oₜ만 얻음.
- 따라서 정책은 “관측의 히스토리” 또는 “belief state(상태에 대한 확률 분포)”를 기반으로 정의해야 함.
(2) 상태 표현
MDP/RL:
- state는 Markov property를 만족한다고 가정 → 미래는 현재 state에만 의존.
POMDP:
- 관측 oₜ만으로는 Markov property가 깨짐. → belief state b(s) = P(s | history)를 추적해야 Markov property 회복.
(3) 알고리즘적 차이
RL (MDP 기반):
- Q-learning, SARSA, Policy Gradient, Actor-Critic 등은 상태를 그대로 쓸 수 있다는 가정에 기초.
POMDP:
- belief state 업데이트: bₜ₊₁(s′) ∝ O(oₜ₊₁ | s′, aₜ) ∑ₛ P(s′|s,aₜ) bₜ(s).
- 이를 기반으로 value iteration / policy search 수행.
- 실제 RL에서는 Recurrent Neural Networks(RNN) 같은 모델을 써서 관측 히스토리를 내재적으로 요약(belief 근사)하기도 함.
3. 요약
- 강화학습 (기본 MDP): “현재 상태를 완전히 알 수 있다”는 가정 아래 학습.
- POMDP: “현재 상태를 직접 알 수 없고, 확률적 관측만 가능” → belief state 추론 필요.
- 따라서 POMDP는 RL보다 더 일반적이고 어렵지만, 현실 문제(로봇 센서 노이즈, 금융, 의료 등)에서는 POMDP가 더 자연스러운 모델이 됩니다.