[1.5장] Ridge, Lasso Regression에서 Variance가 작아지는 이유 | Notion

제약식 살펴보기

Ridge Regression (L2 정규화)

제약식: $\sum_{j=1}^p \beta_j^2 \leq t$
목적 함수: 최소제곱오차 + $\lambda \sum_{j=1}^p \beta_j^2$

효과

계수를 0에 가깝게 줄이는 방향으로 학습 → 계수 축소(shrinkage)
다중공선성(multicollinearity) 문제를 완화 → 안정적 추정
모든 변수를 조금씩 쓰려는 경향이 있어 **변수 선택(feature selection)**은 일어나지 않음 (즉, 계수는 0에 아주 가까워지지만 완전히 0은 되지 않음)

Lasso Regression (L1 정규화)

제약식: $\sum_{j=1}^p |\beta_j| \leq t$
목적 함수: 최소제곱오차 + $\lambda \sum_{j=1}^p |\beta_j|$

효과

일부 계수를 정확히 0으로 만들 수 있음 → 불필요한 변수를 제거 (즉, 변수 선택 기능 내장)
모델이 더 간단하고 해석 가능해짐
하지만 변수가 강하게 상관되어 있으면 어떤 변수를 선택할지 불안정할 수 있음

편향-분산 트레이드오프 관점에서 계수가 작아지면 왜 분산(variance)이 낮아지는 이유

정리하자면, 계수를 줄이는 것은 모델이 데이터 잡음에 과도하게 반응하는 것을 막아주기 때문에 분산을 낮춘다고 할 수 있습니다.