[강의2] (참고) Partially Observable Markov Decision Process | Notion

✅ 정리

POMDP = MDP + 관측 불완전성.
상태 대신 belief state를 추적해야 함.
해법은 이론적으로는 DP in belief space, 실제로는 근사 방법(PBVI, POMCP, RNN 기반 RL)이 주로 쓰임.

1. POMDP의 수학적 모델

POMDP (Partially Observable Markov Decision Process)는 보통 7-튜플로 정의됩니다:

(S, A, P, R, Ω, O, γ)

S: 상태 집합 (state space)
A: 행동 집합 (action space)
P(s′ | s, a): 상태 전이 확률 (transition dynamics)
R(s, a): 보상 함수 (reward function)
Ω: 관측 집합 (observation space)
O(o | s′, a): 관측 확률 (observation function) → 행동 a 이후 상태 s′에 있을 때 관측 o가 나올 확률
γ ∈ [0, 1]: 할인율

에이전트는 진짜 상태 sₜ를 직접 관찰하지 못하고, 대신 확률적 관측 oₜ만 받습니다.

2. Belief State (신념 상태)

POMDP에서 policy를 잘 정의하려면 “지금 상태가 어디에 있을지”에 대한 **확률분포 bₜ(s) = P(s | history)**를 관리해야 합니다.
Belief update 식은 다음과 같습니다: