자유도(degrees of freedom)라는 개념은 통계학에서 주로 추정 과정에서 사용된 정보의 독립성을 나타내기 위해 사용됩니다. 특히 표본 통계량(평균, 분산 등)을 계산할 때, 주어진 표본 내에서 계산된 값들 중 독립적으로 선택할 수 있는 값들의 수를 의미합니다. 자유도가 왜 발생하는지에 대한 수리적 근거를 이해하기 위해, 자유도의 개념이 어떻게 나타나는지 살펴보겠습니다.
자유도 개념은 표본 통계량을 추정할 때, 특히 표본분산을 계산하는 과정에서 등장합니다. 먼저, 표본평균 $\bar{x}$을 계산할 때, $n$개의 표본 $x_1, x_2, \dots, x_n$를 사용하여 평균을 구합니다:
$$ ⁍ $$
표본분산을 계산하려면, 각 데이터 포인트 $x_i$가 표본평균으로부터 얼마나 떨어져 있는지를 알아야 합니다. 표본분산의 식은 다음과 같습니다:
$$ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$
여기서 중요한 점은 표본분산을 계산할 때, **표본평균 $\bar{x}$**이 이미 계산되어 고정된 값이라는 것입니다. 즉, 모든 표본 값들이 독립적으로 선택될 수 없는 상황이 발생합니다. 이는 다음과 같이 설명할 수 있습니다.
데이터 $x_1, x_2, \dots, x_n$에서 표본평균을 계산한 후, 이 $n$개의 데이터 포인트는 완전히 독립적이지 않습니다. 표본평균이 이미 계산되었기 때문에, 마지막 데이터 $x_n$는 나머지 $n-1$개의 데이터에 의해 결정된 값이어야 합니다. 즉:
$$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \implies x_n = n\bar{x} - \sum_{i=1}^{n-1} x_i $$
따라서 마지막 값 $x_n$은 나머지 $n-1$개의 데이터 값들에 의해 결정되므로, 독립적으로 선택할 수 있는 데이터 포인트는 $n-1$개라는 것입니다. 이 하나의 자유도가 소진된 것을 보정하기 위해, 분산을 계산할 때 $n$이 아닌 $n-1$로 나누는 것입니다.
자유도는 본질적으로 모수나 통계량을 추정할 때 이미 사용된 정보의 양을 반영하는 개념입니다. 즉, 자유도는 데이터가 가진 정보 중에서 얼마나 많은 부분이 독립적으로 변할 수 있는지를 나타냅니다. 추정 과정에서 어떤 값을 이미 사용했다면, 나머지 값들이 독립적으로 선택될 수 있는 정도가 줄어듭니다.