반응형
선형 회귀(Linear Regression)
1. 개념
2. 종류
3. 가정
선형 회귀는 다음과 같은 통계적 가정이 만족된다고 가정합니다:
- 선형성(Linearity): 독립 변수와 종속 변수 간의 관계는 선형적이다.
- 독립성(Independence): 오차 항(ϵ\epsilon)은 서로 독립적이다.
- 등분산성(Homoscedasticity): 오차 항의 분산이 독립 변수 값에 관계없이 일정하다.
- 정규성(Normality): 오차 항은 정규 분포를 따른다.
- 다중공선성(Multicollinearity)의 부재: 독립 변수 간 상관관계가 높지 않다.
4. 목적
- 예측: 새로운 데이터의 종속 변수 값을 예측.
- 추론: 독립 변수와 종속 변수 간의 관계를 이해.
- 변수의 중요도 분석: 각 독립 변수가 종속 변수에 미치는 영향을 평가.
5. 모델 학습
6. 평가 지표
7. 장점
- 구현이 간단하고 해석이 용이.
- 계산 비용이 낮아 대규모 데이터에서도 빠르게 학습.
- 통계적 의미를 기반으로 하므로 변수의 관계를 명확히 분석 가능.
8. 단점
- 선형성 가정의 한계: 데이터가 선형 관계를 따르지 않으면 성능이 저하.
- 이상치(Outlier)에 민감: 데이터에 이상치가 있으면 모델이 왜곡될 수 있음.
- 다중공선성의 영향: 독립 변수 간의 높은 상관관계는 모델 해석을 어렵게 만듦.
- 과적합: 변수가 너무 많을 경우 모델이 복잡해져 과적합 발생.
9. 활용 사례
- 비즈니스: 매출, 수익, 비용 예측.
- 의학: 환자의 생존 확률 예측.
- 사회 과학: 경제적 또는 인구 통계적 변수 간 관계 분석.
- 기타: 환경 데이터(온도, 습도) 분석 등.
10. 확장 모델
- 릿지 회귀(Ridge Regression): L2 규제 추가로 과적합 방지.
- 라쏘 회귀(Lasso Regression): L1 규제를 통해 변수 선택 가능.
- 다항 회귀(Polynomial Regression): 비선형 데이터에 선형 회귀를 확장.
선형 회귀는 머신러닝 및 통계학의 기초적이고 강력한 도구입니다. 단순하면서도 강력한 해석 가능성을 제공하나, 데이터의 성질에 따라 가정이 성립하지 않을 수 있으므로, 이를 보완하기 위해 규제나 다른 비선형 모델을 활용할 필요가 있습니다.
반응형