카테고리 없음

베이즈 정리와 나이브 베이즈

itpekorea 2025. 6. 19. 21:39

베이즈 정리 (Bayes' Theorem)

베이즈 정리는 조건문 확률을 계산하는 수학적 공식으로, 새로운 증거를 바탕으로 기존 믿음을 갱신하는 데 사용됩니다. 수식은 다음과 같습니다:

P(A∣B)=P(B∣A)⋅P(A)P(B)P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
  • P(A∣B)P(A|B): 사건 BB가 주어졌을 때 사건 AA의 확률 (사후 확률)
  • P(B∣A)P(B|A): 사건 AA가 주어졌을 때 사건 BB의 확률 (우도)
  • P(A)P(A): 사건 AA의 사전 확률
  • P(B)P(B): 사건 BB의 사전 확률 (정규화 상수)

예시: 질병 진단

  • 질병 DD에 걸릴 확률 P(D)=0.01P(D) = 0.01
  • 질병이 있을 때 검사 양성일 확률 P(T∣D)=0.95P(T|D) = 0.95
  • 검사 양성일 확률 P(T)=0.05P(T) = 0.05
  • 검사 양성 시 질병에 걸릴 확률 P(D∣T)P(D|T)?
P(D∣T)=P(T∣D)⋅P(D)P(T)=0.95⋅0.010.05=0.19P(D|T) = \frac{P(T|D) \cdot P(D)}{P(T)} = \frac{0.95 \cdot 0.01}{0.05} = 0.19

즉, 검사 양성이라도 질병에 걸릴 확률은 19%입니다.


나이브 베이즈 (Naive Bayes)

나이브 베이즈는 베이즈 정리를 기반으로 한 분류 알고리즘으로, 특성들이 서로 독립이라는 가정(나이브 가정)을 전제로 합니다. 이 가정 덕분에 계산이 단순화되어 대규모 데이터셋에서도 효율적입니다.

수식

입력 특성 (X = (x_1, x

 
중단됨
베이즈정리와 나이브베이즈
 
 

베이즈 정리 (Bayes' Theorem)

베이즈 정리는 조건문 확률을 계산하는 공식으로, 새로운 증거를 바탕으로 확률을 갱신합니다. 수식은 다음과 같습니다:

P(A∣B)=P(B∣A)⋅P(A)P(B)P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
  • P(A∣B)P(A|B): BB가 주어졌을 때 AA의 확률 (사후 확률)
  • P(B∣A)P(B|A): AA가 주어졌을 때 BB의 확률 (우도)
  • P(A)P(A): AA의 사전 확률
  • P(B)P(B): BB의 사전 확률 (정규화 상수)

예시: 질병 진단

  • 질병 DD에 걸릴 확률: P(D)=0.01P(D) = 0.01
  • 질병이 있을 때 검사 양성 확률: P(T∣D)=0.95P(T|D) = 0.95
  • 검사 양성 확률: P(T)=0.05P(T) = 0.05
  • 검사 양성 시 질병 확률 P(D∣T)P(D|T)?
P(D∣T)=P(T∣D)⋅P(D)P(T)=0.95⋅0.010.05=0.19P(D|T) = \frac{P(T|D) \cdot P(D)}{P(T)} = \frac{0.95 \cdot 0.01}{0.05} = 0.19

즉, 검사 양성일 때 질병에 걸릴 확률은 19%입니다.


나이브 베이즈 (Naive Bayes)

나이브 베이즈는 베이즈 정리를 기반으로 한 분류 알고리즘으로, 특성들이 서로 독립이라는 가정(나이브 가정)을 사용합니다. 이로 인해 계산이 단순화되어 텍스트 분류(예: 스팸 필터링) 등에 자주 사용됩니다.

수식

입력 특성 X=(x1,x2,…,xn)X = (x_1, x_2, \ldots, x_n)가 주어졌을 때 클래스 CC의 확률:

P(C∣X)=P(X∣C)⋅P(C)P(X)P(C|X) = \frac{P(X|C) \cdot P(C)}{P(X)}

나이브 가정 하에서:

P(X∣C)=P(x1∣C)⋅P(x2∣C)⋅…⋅P(xn∣C)P(X|C) = P(x_1|C) \cdot P(x_2|C) \cdot \ldots \cdot P(x_n|C)

따라서:

P(C∣X)∝P(C)⋅∏i=1nP(xi∣C)P(C|X) \propto P(C) \cdot \prod_{i=1}^n P(x_i|C)

클래스 CC는 가장 높은 확률을 가진 클래스로 선택됩니다:

C=arg⁡max⁡CP(C)⋅∏i=1nP(xi∣C)C = \arg\max_C P(C) \cdot \prod_{i=1}^n P(x_i|C)

종류

  1. 가우시안 나이브 베이즈: 특성이 연속적이고 정규분포를 따른다고 가정.
  2. 다항 나이브 베이즈: 특성이 이산적이며 빈도 기반(예: 단어 빈도).
  3. 베르누이 나이브 베이즈: 특성이 이진(0/1) 값.

예시: 스팸 이메일 분류

  • 이메일에 "무료"라는 단어가 있을 때 스팸일 확률을 계산.
  • 사전 확률: P(스팸)=0.4P(\text{스팸}) = 0.4, P(비스팸)=0.6P(\text{비스팸}) = 0.6
  • 우도: P(무료∣스팸)=0.8P(\text{무료}|\text{스팸}) = 0.8, P(무료∣비스팸)=0.1P(\text{무료}|\text{비스팸}) = 0.1
  • "무료" 단어가 포함된 이메일이 스팸일 확률:
P(스팸∣무료)∝P(무료∣스팸)⋅P(스팸)=0.8⋅0.4=0.32P(\text{스팸}|\text{무료}) \propto P(\text{무료}|\text{스팸}) \cdot P(\text{스팸}) = 0.8 \cdot 0.4 = 0.32 P(비스팸∣무료)∝P(무료∣비스팸)⋅P(비스팸)=0.1⋅0.6=0.06P(\text{비스팸}|\text{무료}) \propto P(\text{무료}|\text{비스팸}) \cdot P(\text{비스팸}) = 0.1 \cdot 0.6 = 0.06

정규화 후:

P(스팸∣무료)=0.320.32+0.06≈0.842P(\text{스팸}|\text{무료}) = \frac{0.32}{0.32 + 0.06} \approx 0.842

즉, "무료" 단어가 포함된 이메일은 약 84.2% 확률로 스팸입니다.


요약

  • 베이즈 정리: 조건문 확률 계산의 기본 원리.
  • 나이브 베이즈: 특성 독립 가정을 통해 베이즈 정리를 단순화한 분류 알고리즘.
  • 장점: 계산 효율성, 대규모 데이터셋에 적합, 특히 텍스트 분류에 강력.
  • 단점: 특성 간 독립 가정이 현실과 어긋날 수 있음.