✅ 정리


1. POMDP의 수학적 모델

POMDP (Partially Observable Markov Decision Process)는 보통 7-튜플로 정의됩니다:

(S, A, P, R, Ω, O, γ)

에이전트는 진짜 상태 sₜ를 직접 관찰하지 못하고, 대신 확률적 관측 oₜ만 받습니다.


2. Belief State (신념 상태)