수리적 증명은 생략함

단변량 정규분포(UVN)와 카이제곱 분포의 관계성

https://m.blog.naver.com/bnormal16/221902647392

수리적으로 단변량 정규분포 확률변수의 제곱은 자유도 1인 카이제곱 분포를 따른다는 사실이 증명된다.

$$ (\frac{X - \mu}{\sigma})^2 = Z^2 \sim \chi^2 (1) $$

다변량 정규분포(MVN)와 카이제곱 분포의 관계성 🤖

<aside> 📌

마할라노비스 거리는 자유도가 벡터의 차원인 카이제곱 분포를 따른다.

</aside>

마할라노비스 거리가 다변량 정규분포에서 카이제곱 분포를 따르는 이유는 다변량 정규분포의 성질과 관련이 있습니다. 이를 이해하기 위해 마할라노비스 거리의 정의와 다변량 정규분포의 특성을 살펴보겠습니다.

1. 마할라노비스 거리의 정의

마할라노비스 거리(Mahalanobis distance)는 다변량 정규분포에서 개별 관측값이 평균으로부터 얼마나 떨어져 있는지를 측정하는 거리입니다. 이 거리는 단순한 유클리드 거리와는 달리 각 변수의 분산과 변수 간의 상관관계를 고려하여 계산됩니다. 마할라노비스 거리 $D^2$는 다음과 같이 정의됩니다.

$$ D^2 = (x - \mu)^T \Sigma^{-1} (x - \mu) $$

여기서,

2. 다변량 정규분포와 카이제곱 분포의 관계

다변량 정규분포를 따르는 데이터가 있을 때, 각 관측값 x와 평균 $\mu$ 사이의 마할라노비스 거리 $D^2$는 특정 자유도를 가진 카이제곱 분포를 따르게 됩니다. 이 자유도는 데이터의 차원 p와 동일합니다. 따라서, 만약 p-차원 다변량 데이터 X가 다변량 정규분포를 따른다면, 마할라노비스 거리 $D^2$는 자유도 p인 카이제곱 분포 $\chi^2(p)$를 따르게 됩니다.

3. 왜 마할라노비스 거리가 카이제곱 분포를 따르는가?