다변량 데이터가 다변량 정규분포를 따르는지 검정하는 방법은 여러 가지가 있습니다. 대표적으로 다음과 같은 방법들이 많이 사용됩니다. 일반적으로는 Mardia의 검정이나 Henze-Zirkler 검정이 많이 사용됩니다.

1. 마할라노비스 거리 기반 검정

마할라노비스 거리는 다변량 데이터의 각 관측치가 평균으로부터 얼마나 떨어져 있는지를 측정하는 데 사용됩니다. 이 거리를 이용해 각 관측치가 다변량 정규분포의 기대 범위 내에 속하는지를 판단할 수 있습니다. 데이터가 다변량 정규분포를 따른다면 마할라노비스 거리가 카이제곱 분포를 따르게 됩니다.

2. Mardia의 다변량 비대칭도와 첨도 검정

Mardia의 다변량 비대칭도(skewness)와 첨도(kurtosis)를 통해 다변량 정규성을 검정할 수 있습니다.

3. 로이아렛 검정(Henze-Zirkler’s Test)

로이아렛 검정은 다변량 정규분포를 따르는지 검정하기 위해 널리 사용되는 방법 중 하나입니다. 이 검정은 샘플의 크기에 민감하지 않으며, 데이터의 차원에 비해 충분한 샘플이 있을 때 더 잘 작동합니다.

4. 막스윌코스 검정

막스윌코스 검정은 다변량 데이터를 이변량 또는 일변량으로 변환하여 각 차원의 정규성을 독립적으로 검정하는 방식입니다. 다변량 데이터를 쪼개어 검정하기 때문에 데이터가 복잡할 경우 유리합니다.

5. Q-Q Plot

각 변수의 쌍에 대해 Q-Q plot을 작성하여 다변량 정규성을 시각적으로 평가할 수 있습니다. 데이터의 분포가 직선에 가깝다면 정규성을 따를 가능성이 큽니다.

6. 변환을 통한 접근

정규성을 보장하지 않는 경우 Box-Cox 변환, 로그 변환 등의 변환을 사용하여 데이터를 정규분포에 가깝게 만든 후 위의 검정을 수행할 수도 있습니다.