제약식 살펴보기
Ridge Regression (L2 정규화)
- 제약식: $\sum_{j=1}^p \beta_j^2 \leq t$
- 목적 함수: 최소제곱오차 + $\lambda \sum_{j=1}^p \beta_j^2$
효과
- 계수를 0에 가깝게 줄이는 방향으로 학습 → 계수 축소(shrinkage)
- 다중공선성(multicollinearity) 문제를 완화 → 안정적 추정
- 모든 변수를 조금씩 쓰려는 경향이 있어 **변수 선택(feature selection)**은 일어나지 않음
(즉, 계수는 0에 아주 가까워지지만 완전히 0은 되지 않음)
Lasso Regression (L1 정규화)
- 제약식: $\sum_{j=1}^p |\beta_j| \leq t$
- 목적 함수: 최소제곱오차 + $\lambda \sum_{j=1}^p |\beta_j|$
효과
- 일부 계수를 정확히 0으로 만들 수 있음 → 불필요한 변수를 제거 (즉, 변수 선택 기능 내장)
- 모델이 더 간단하고 해석 가능해짐
- 하지만 변수가 강하게 상관되어 있으면 어떤 변수를 선택할지 불안정할 수 있음
편향-분산 트레이드오프 관점에서 계수가 작아지면 왜 분산(variance)이 낮아지는 이유
정리하자면, 계수를 줄이는 것은 모델이 데이터 잡음에 과도하게 반응하는 것을 막아주기 때문에 분산을 낮춘다고 할 수 있습니다.