데이터 D:
가정 B:
데이터셋의 데이터 {x^t, r^t} for all t끼리는 iid
베이지안 분류기: posterior P(c_i | x) 가 가장 큰 class i로 x를 분류한다.
⇔ h(x) = argmax_i {P(x | c_i) P((c_i)}
likelihood 정규 분포: likelihood P(x | c_i, θ) ~ N(x | μ_i, σ_i)
prior 카테고리 분포: prior P(c_i | θ) ~ Cat(c_i | π)
⇒ P(c_i | θ) = π_i)
탐색 전략: MLE
⇔ 손실함수: negative log likelihood NLL(θ) := -log{P(D | θ)}
모수(가설공간): μ_i, σ_i, π_i for all i in {1, 2, …, K}
통계는 주어진 샘플에서 계산된 모든 값을 의미합니다. 통계적 추론에서 우리는 샘플이 제공하는 정보를 사용하여 결정을 내립니다.
우리의 첫 번째 접근 방식은 매개변수 방식으로, 여기서 우리는 샘플이 알려진 모델, 예를 들어 가우시안에서 따온 분포로부터 생성되었다고 가정합니다. 매개변수 접근 방식의 장점은 모델이 소수의 매개변수—예를 들어, 평균, 분산—에 의해 정의된다는 것입니다.
이러한 매개변수들이 샘플에서 추정되면 전체 분포가 알려지게 됩니다. 우리는 주어진 샘플로부터 분포의 매개변수를 추정하고, 이러한 추정치를 가정된 모델에 대입하여 추정된 분포를 얻습니다. 그런 다음 이를 사용하여 결정을 내립니다.
우리는 먼저 밀도 추정을 다룹니다. 이는 p(x)를 추정하는 일반적인 경우입니다. 우리는 이 밀도 추정을 분류에 사용합니다. 여기서 추정된 밀도는 클래스 밀도 p(x|Ci)와 사전 확률 P(Ci)로, 이를 통해 사후 확률P(Ci|x)를 계산하고 결정을 내릴 수 있습니다. 다음으로 회귀를 논의하는데, 여기서 추정된 밀도는 p(y|x)입니다. 이 장에서는 x가 일차원이며 따라서 밀도는 단변량입니다.
이제 우리가 관심 있는 응용 분야에서 발생하는 몇 가지 분포를 살펴보겠습니다. 만약 두 개의 클래스 문제라면, 우리는 베르누이 분포를 사용합니다. 클래스가 K > 2인 경우, 그 일반화는 다항 분포입니다. 가우시안(정규) 밀도는 수치 입력을 가진 클래스 조건부 입력 밀도를 모델링하는 데 가장 자주 사용되는 것입니다.