카테고리 없음

선형 회귀란?

fiction-google 2024. 12. 3. 18:15
반응형

 

선형 회귀(Linear Regression)


1. 개념


2. 종류


3. 가정

선형 회귀는 다음과 같은 통계적 가정이 만족된다고 가정합니다:

  1. 선형성(Linearity): 독립 변수와 종속 변수 간의 관계는 선형적이다.
  2. 독립성(Independence): 오차 항(ϵ\epsilon)은 서로 독립적이다.
  3. 등분산성(Homoscedasticity): 오차 항의 분산이 독립 변수 값에 관계없이 일정하다.
  4. 정규성(Normality): 오차 항은 정규 분포를 따른다.
  5. 다중공선성(Multicollinearity)의 부재: 독립 변수 간 상관관계가 높지 않다.

4. 목적

  1. 예측: 새로운 데이터의 종속 변수 값을 예측.
  2. 추론: 독립 변수와 종속 변수 간의 관계를 이해.
  3. 변수의 중요도 분석: 각 독립 변수가 종속 변수에 미치는 영향을 평가.

5. 모델 학습


6. 평가 지표


7. 장점

  1. 구현이 간단하고 해석이 용이.
  2. 계산 비용이 낮아 대규모 데이터에서도 빠르게 학습.
  3. 통계적 의미를 기반으로 하므로 변수의 관계를 명확히 분석 가능.

8. 단점

  1. 선형성 가정의 한계: 데이터가 선형 관계를 따르지 않으면 성능이 저하.
  2. 이상치(Outlier)에 민감: 데이터에 이상치가 있으면 모델이 왜곡될 수 있음.
  3. 다중공선성의 영향: 독립 변수 간의 높은 상관관계는 모델 해석을 어렵게 만듦.
  4. 과적합: 변수가 너무 많을 경우 모델이 복잡해져 과적합 발생.

9. 활용 사례

  1. 비즈니스: 매출, 수익, 비용 예측.
  2. 의학: 환자의 생존 확률 예측.
  3. 사회 과학: 경제적 또는 인구 통계적 변수 간 관계 분석.
  4. 기타: 환경 데이터(온도, 습도) 분석 등.

10. 확장 모델

  • 릿지 회귀(Ridge Regression): L2 규제 추가로 과적합 방지.
  • 라쏘 회귀(Lasso Regression): L1 규제를 통해 변수 선택 가능.
  • 다항 회귀(Polynomial Regression): 비선형 데이터에 선형 회귀를 확장.

 

선형 회귀는 머신러닝 및 통계학의 기초적이고 강력한 도구입니다. 단순하면서도 강력한 해석 가능성을 제공하나, 데이터의 성질에 따라 가정이 성립하지 않을 수 있으므로, 이를 보완하기 위해 규제나 다른 비선형 모델을 활용할 필요가 있습니다.

반응형