어떤 symbol x의 정보의 양은 전송 비트 수가 최대한 압축되도록 인코딩할 때 symbol x에 할당된 비트 수이다. [1] 정보의 양은 불확실성을 의미한다. symbol x의 정보의 양은 symbol x가 발생할 확률이 p(x)일 때, log(1/p(x))이다.
엔트로피는 symbol 확률분포(p(x) for all x)가 주어질 때, symbol의 정보의 양 기댓값(평균 최적 비트수)이다. 즉, H(p) = E_p[log(1/p(x))] = Σ_x[p(x) * log(1/p(x))]이다. 엔트로피는 확률분포에 대한 함수이다. 각 symbol이 발생할 확률이 모든 symbol에 대해 균등할수록 정보의 양(비트 수)/확률분포의 불확실성/정보의 가치는 커진다. 즉, symbol의 purity(순도)가 높을수록 엔트로피는 감소한다.
(받아들임) cross-entropy는 모집단 확률분포 p(x)를 따르는 symbol이 q(x)를 따른다고 믿을 때, 즉 p(x) 확률로 발생하는 어떤 symbol x에 확률분포 q(x)에 따라 비트 수를 할당(정보의 양이 log(1/q(x))라고 추정)할 때의 모든 symbol에 대한 정보의 양 기댓값이다. H(p, q) = E_p[log(1/q(x))] = Σ_x[p(x) * log(1/q(x))]로 정의한다. H(p, p) = H(p)이다.
[1]의 의미를 따져보면, symbol x에 대한 최적 비트 수로 구한 H(p)는 반드시 H(p, q)보다 작다.
Kullback-Leibler divergence는 log(P(X)/Q(X))의 P(X)에 대한 기댓값으로 정의한다. KL divergence은 두 확률분포의 차이/간격/괴리를 구하는 지표이다. KL divergence 공식은 (cross-entropy) - (entropy) = H(p, q) - H(p)와 정확히 같으므로, KL divergence는 true와 estimated 확률분포의 괴리로 인한 평균 비트 수 낭비로 해석된다. KL divergence은 -log의 볼록성을 토대로, 0 이상이며 오직 Q = P일 때만 0임을 증명 가능하다.
확률변수의 정보의 양 = 불확실성 = symbol 할당 비트 수 = -log(p(x))
확률분포의 엔트로피 = H(p) = E_p[1/log(p(x))] = 정보의 양 기댓값 = 평균 비트 수 = 불확실성 = 정보의 가치 ∝ 1/purity
두 확률분포의 KL Divergence = H(p, q) - H(p) = 확률분포의 차이 측정 = 평균 비트 수 낭비