제약식 살펴보기

Ridge Regression (L2 정규화)

효과

  1. 계수를 0에 가깝게 줄이는 방향으로 학습 → 계수 축소(shrinkage)
  2. 다중공선성(multicollinearity) 문제를 완화 → 안정적 추정
  3. 모든 변수를 조금씩 쓰려는 경향이 있어 **변수 선택(feature selection)**은 일어나지 않음 (즉, 계수는 0에 아주 가까워지지만 완전히 0은 되지 않음)

Lasso Regression (L1 정규화)

효과

  1. 일부 계수를 정확히 0으로 만들 수 있음 → 불필요한 변수를 제거 (즉, 변수 선택 기능 내장)
  2. 모델이 더 간단하고 해석 가능해짐
  3. 하지만 변수가 강하게 상관되어 있으면 어떤 변수를 선택할지 불안정할 수 있음

편향-분산 트레이드오프 관점에서 계수가 작아지면 왜 분산(variance)이 낮아지는 이유

정리하자면, 계수를 줄이는 것은 모델이 데이터 잡음에 과도하게 반응하는 것을 막아주기 때문에 분산을 낮춘다고 할 수 있습니다.