✅ 정리
- POMDP = MDP + 관측 불완전성.
- 상태 대신 belief state를 추적해야 함.
- 해법은 이론적으로는 DP in belief space, 실제로는 근사 방법(PBVI, POMCP, RNN 기반 RL)이 주로 쓰임.
1. POMDP의 수학적 모델
POMDP (Partially Observable Markov Decision Process)는 보통 7-튜플로 정의됩니다:
(S, A, P, R, Ω, O, γ)
- S: 상태 집합 (state space)
- A: 행동 집합 (action space)
- P(s′ | s, a): 상태 전이 확률 (transition dynamics)
- R(s, a): 보상 함수 (reward function)
- Ω: 관측 집합 (observation space)
- O(o | s′, a): 관측 확률 (observation function) → 행동 a 이후 상태 s′에 있을 때 관측 o가 나올 확률
- γ ∈ [0, 1]: 할인율
에이전트는 진짜 상태 sₜ를 직접 관찰하지 못하고, 대신 확률적 관측 oₜ만 받습니다.
2. Belief State (신념 상태)
- POMDP에서 policy를 잘 정의하려면 “지금 상태가 어디에 있을지”에 대한 **확률분포 bₜ(s) = P(s | history)**를 관리해야 합니다.
- Belief update 식은 다음과 같습니다: