본문 바로가기
카테고리 없음

선형 회귀분석과 로지스틱 회귀분석 비교

by itpekorea 2025. 6. 29.

 

1. 목적

  • 선형 회귀분석 (Linear Regression):
    • 목적: 연속형 종속 변수를 예측.
    • 예: 주택 가격, 온도, 매출액 등과 같은 실수 값을 예측.
    • 출력: 연속적인 값 (예: 42.5, 100.3 등).
  • 로지스틱 회귀분석 (Logistic Regression):
    • 목적: 이산형(범주형) 종속 변수를 예측, 주로 이진 분류 문제에 사용.
    • 예: 이메일이 스팸인지 아닌지, 환자가 질병에 걸렸는지 아닌지 등.
    • 출력: 확률 값 (0과 1 사이, 예: 0.75는 75% 확률).

2. 종속 변수의 유형

  • 선형 회귀분석: 연속형 (예: 키, 무게, 점수).
  • 로지스틱 회귀분석: 범주형, 주로 이진 (예: 참/거짓, 0/1). 다중 클래스 문제에는 다항 로지스틱 회귀분석 사용.

3. 모델의 출력

  • 선형 회귀분석: Y=β0+β1X1+β2X2+⋯+βnXn Y = β_0 + β_1X_1 + β_2X_2 + \dots + β_nX_n
    • 출력은 제한 없는 실수 값 (−∞,∞-\infty, \infty).
  • 로지스틱 회귀분석: P(Y=1)=11+e−(β0+β1X1+⋯+βnXn) P(Y=1) = \frac{1}{1 + e^{-(β_0 + β_1X_1 + \dots + β_nX_n)}}
    • 시그모이드 함수를 사용해 출력을 0과 1 사이의 확률로 변환.

4. 가정

  • 선형 회귀분석:
    • 종속 변수와 독립 변수 간 선형 관계.
    • 잔차의 정규성, 등분산성, 독립성.
    • 이상치에 민감.
  • 로지스틱 회귀분석:
    • 독립 변수와 로그 오즈(log-odds) 간 선형 관계.
    • 잔차의 정규성이나 등분산성을 가정하지 않음.
    • 이진 결과에 적합하도록 설계.

5. 손실 함수

  • 선형 회귀분석: 최소제곱법 (Mean Squared Error, MSE).
    • 예측값과 실제값의 차이를 최소화.
  • 로지스틱 회귀분석: 로그 손실 (Log Loss, 또는 Cross-Entropy Loss).
    • 실제 클래스와 예측 확률 간의 차이를 최소화.

6. 평가 지표

  • 선형 회귀분석:
    • R², MSE, RMSE, MAE 등.
  • 로지스틱 회귀분석:
    • 정확도, 정밀도, 재현율, F1-Score, ROC-AUC 등.

7. 적용 예시

  • 선형 회귀분석:
    • 주택 가격 예측.
    • 시험 성적 예측.
  • 로지스틱 회귀분석:
    • 질병 진단 (예: 암 여부).
    • 고객 이탈 예측 (예: 이탈/비이탈).

요약 표

항목선형 회귀분석로지스틱 회귀분석
종속 변수 연속형 범주형 (주로 이진)
출력 실수 (−∞,∞-\infty, \infty) 확률 (0~1)
모델 함수 선형 함수 시그모이드 함수
손실 함수 MSE 로그 손실 (Cross-Entropy)
가정 선형성, 정규성, 등분산성 로그 오즈의 선형성
적용 사례 가격, 점수 예측 분류 (스팸, 질병 등)

결론

  • 선형 회귀분석은 연속적인 값을 예측하는 데 적합하며, 로지스틱 회귀분석은 분류 문제, 특히 이진 분류에 적합합니다.
  • 두 방법 모두 독립 변수와 종속 변수 간의 관계를 모델링하지만, 출력의 성격과 사용되는 수학적 접근 방식에서 차이가 있습니다.

(추가) 선형성, 정규성, 등분산성, 로그 오즈의 선형성

1. 선형성 (Linearity)

  • 선형 회귀분석:
    • 정의: 독립 변수(XX)와 종속 변수(YY) 간의 관계가 선형적이어야 함. 즉, Y=β0+β1X1+⋯+βnXn+ϵ Y = β_0 + β_1X_1 + \dots + β_nX_n + \epsilon 형태로 표현 가능.
    • 의미: 독립 변수의 변화가 종속 변수에 일정한 비율로 영향을 미침.
    • 검증 방법: 산점도, 잔차 플롯 분석. 잔차가 특정 패턴을 보이면 선형성 가정 위반.
    • : 주택 크기(XX)가 가격(YY)에 선형적으로 영향을 미친다고 가정.
  • 로지스틱 회귀분석 (로그 오즈의 선형성):
    • 정의: 독립 변수(XX)와 로그 오즈(log⁡(P1−P)\log(\frac{P}{1-P})) 간의 관계가 선형적이어야 함. 여기서 PP는 성공 확률.
    • 의미: 독립 변수의 변화가 로그 오즈에 선형적으로 영향을 미침. 이는 확률 자체가 아니라 로그 변환된 오즈에 적용됨.
    • 검증 방법: Box-Tidwell 테스트 또는 독립 변수와 로그 오즈 간의 관계를 시각화.
    • : 나이(XX)가 질병 발생 확률의 로그 오즈에 선형적으로 영향을 미친다고 가정.

2. 정규성 (Normality)

  • 선형 회귀분석:
    • 정의: 잔차(ϵ\epsilon)가 정규분포를 따라야 함.
    • 의미: 모델의 예측 오차가 정규분포를 따르지 않으면 추정된 회귀 계수의 신뢰 구간이나 p-값이 왜곡될 수 있음.
    • 검증 방법: Q-Q 플롯, Shapiro-Wilk 테스트, Kolmogorov-Smirnov 테스트 등.
    • 중요성: 특히 소표본에서 중요. 대표본에서는 중심극한정리에 의해 덜 엄격해질 수 있음.
  • 로지스틱 회귀분석:
    • 정규성 가정 없음: 로지스틱 회귀분석은 잔차의 정규성을 가정하지 않음. 이는 종속 변수가 이진(또는 범주형)이기 때문.
    • 대신 고려되는 점: 로그 오즈의 선형성과 데이터의 충분한 크기.

3. 등분산성 (Homoscedasticity)

  • 선형 회귀분석:
    • 정의: 독립 변수의 모든 수준에서 잔차의 분산이 일정해야 함.
    • 의미: 잔차의 분산이 독립 변수의 값에 따라 달라지면(이분산성), 회귀 계수의 추정치가 비효율적일 수 있음.
    • 검증 방법: 잔차 플롯, Breusch-Pagan 테스트, White 테스트.
    • : 주택 크기가 커질수록 가격 예측의 오차 분산이 일정해야 함.
  • 로지스틱 회귀분석:
    • 등분산성 가정 없음: 로지스틱 회귀분석은 이진 데이터의 특성상 잔차 분산이 고정되어 있지 않으므로 등분산성을 가정하지 않음.
    • 대신 고려되는 점: 모델의 적합도는 로그 손실이나 deviance로 평가.

요약 표

가정선형 회귀분석로지스틱 회귀분석
선형성 XXYY 간 선형 관계 XX와 로그 오즈 간 선형 관계
정규성 잔차가 정규분포 따라야 함 정규성 가정 없음
등분산성 잔차의 분산이 일정해야 함 등분산성 가정 없음

추가 설명

  • 선형 회귀분석은 연속형 데이터를 다루므로 선형성, 정규성, 등분산성 가정이 중요하며, 이 가정이 위반되면 모델의 신뢰도가 떨어질 수 있습니다.
  • 로지스틱 회귀분석은 이진 데이터의 특성상 정규성과 등분산성 가정이 필요 없지만, 로그 오즈의 선형성 가정이 중요합니다. 이 가정이 위반되면 모델이 데이터의 패턴을 잘못 해석할 수 있습니다.