Skip to content

R에서 Lasso 회귀 vs Ridge 회귀 - 설명!

Updated on

통계학적으로 두 가지 강력한 기술인 Lasso와 Ridge 회귀가 나타났습니다. 이러한 기술은 특히 데이터의 다중공선성을 다룰 때 예측 모델을 작성하기 위해 광범위하게 사용됩니다. 특히 R에서 Lasso 회귀 모델의 강력한 성능은 인상적입니다. 이러한 기술을 탐구하고 데이터 분석에서의 유용성을 강조해 보겠습니다.

파이썬 판다 데이터프레임에서 No code로 데이터 시각화를 빠르게 만들고 싶으신가요?

PyGWalker는 시각화를 통한 탐색적 데이터 분석을 위한 파이썬 라이브러리입니다. PyGWalker (opens in a new tab)는 pandas 데이터프레임 (및 polars 데이터프레임)을 Tableau 스타일의 사용자 인터페이스로 변경하여 시각적 탐색을 단순화할 수 있습니다.

PyGWalker for Data visualization (opens in a new tab)

Lasso 회귀란 무엇인가요?

Lasso (Least Absolute Shrinkage and Selection Operator) 회귀는 머신러닝 및 통계분야에서 인기있는 모델입니다. 특징 선택 및 정규화로 잘 알려진 Lasso 회귀는 오버피팅을 방지하고 고차원 데이터를 관리하는 데 능숙합니다.

R에서 Lasso 회귀를 구현하는 간단한 예제입니다:

## 필요한 패키지 로드
library(glmnet)
 
## 데이터 준비
x <- model.matrix(~., train_data)[,-1]  ## 독립변수
y <- train_data$Target  ## 종속변수
 
## lasso 모델 적합
my_lasso <- glmnet(x, y, alpha = 1)
 
## 모델 확인
print(my_lasso)

Ridge 회귀란 무엇인가요?

반면, 우리는 통계학에서 또 다른 강력한 기술인 Ridge 회귀를 가지고 있습니다. Ridge 회귀는 다중공선성을 처리하고, 과적합을 다루며, 계수를 0으로 축소시키지만 Lasso 회귀와 달리 완전히 제거하지 않으면서 모델 복잡도를 줄이는 능력으로 잘 알려져 있습니다.

R에서 Ridge 회귀의 빠른 예제는 다음과 같습니다:

## 필요한 패키지 로드
library(glmnet)
 
## 데이터 준비
x <- model.matrix(~., train_data)[,-1]  ## 독립변수
y <- train_data$Target  ## 종속변수
 
## 릿지 모델 적합
ridge_model <- glmnet(x, y, alpha = 0)
 
## 모델 확인
print(ridge_model)

라소 회귀 vs 릿지 회귀: 중요한 차이점

라소 회귀와 릿지 회귀 토론의 요점은 각 방법이 어떻게 패널티를 적용하는지에 있습니다. 릿지 회귀 공식에서는 계수의 크기의 제곱에 해당하는 패널티가 적용되어, 계수가 작지만 0이 아니도록 보장됩니다. 이 과정은 "L2 규제"로 알려져 있습니다.

반면에 라소 회귀는 절대 값 패널티 항을 적용하여 일부 계수를 0으로 줄일 수 있습니다. 따라서 해당 특징을 모델에서 제거합니다. 이 방법은 "L1 규제"로 알려져 있습니다.

릿지 회귀는 선형 회귀와 유사하지만, 계수에 대한 패널티 항이 없기 때문에 다중공선성을 처리하지 못합니다. 패널티 항을 도입함으로써 릿지 회귀는 모델에 편향을 만들어 분산과 편향을 교환하여 더 견고하고 안정적인 모델을 만듭니다.

릿지 vs 라소 회귀를 사용할 때

릿지 회귀와 라쏘 회귀의 주요 차이점은 관련없는 특징을 어떻게 처리하는지입니다. 데이터 세트에 중복되는 특징이 있다고 생각한다면, Lasso는 특징 선택을 수행하므로 선택할 수 있습니다. 반대로, 모든 기능이 결과에 기여한다고 생각하는 경우 Ridge 회귀는 모든 기능을 사용하기 때문에 더 나을 수 있습니다.

그러나 두 방법 모두 다중공선성이 심한 데이터에 대해서는 최적으로 작동하지 않으며, 예측 변수의 수(p)가 관측 수(n)를 초과하는 데이터에 적합하지 않습니다.

R에서의 라쏘 및 릿지 회귀

R에서 라쏘 및 릿지 회귀는 통계 및 기계 학습에서 중요한 역할을 합니다. 다중공선성 처리, 과적합 감소, 라소에서는 특징 선택에 적용되는 유용한 도구입니다.

통계에서 Lasso 회귀의 적용은 모델 구축에 그치지 않고 고차원 데이터와 함께 작업하는 경우, 희소한 솔루션을 제공하므로 해석 가능성을 향상시킵니다.

릿지 또는 라소 회귀 모델 중 어느 것을 선택할지는 사용하는 데이터 세트와 해결하려는 문제에 따라 달라집니다. 두 도구를 사용하는 방법을 학습하여 데이터 과학 도구 상자를 크게 확장하고 예측 모델링 능력을 향상시킬 수 있습니다. 더 많은 연습과 경험을 쌓으면 특정 작업에 대한 라쏘 회귀 또는 리지 회귀 사용 여부를 판단할 수 있습니다.