👉 정리하면, 강화학습은 보통 “full observable MDP”를 가정하지만, POMDP에서는 관측이 제한되므로 **추가로 상태 추정(belief update)**이 필요하다는 점이 핵심 차이입니다.


1. 공통점


2. 차이점

(1) 관측 가능성

MDP (강화학습의 기본 가정)

POMDP


(2) 상태 표현

MDP/RL:

POMDP:


(3) 알고리즘적 차이

RL (MDP 기반):

POMDP:


3. 요약