카테고리 없음
t 분산과 t 테스트
itpekorea
2025. 6. 19. 21:46
t 분산 (t Distribution)
t 분산(Student's t distribution)은 표본 크기가 작거나 모집단의 분산을 모를 때, 표본 평균의 분포를 추정하는 데 사용되는 확률 분포입니다. 정규분포와 유사하지만, 꼬리 부분이 더 두껍고 표본 크기에 따라 모양이 달라집니다.
주요 특성
- 자유도(df): t 분산의 모양을 결정하는 매개변수로, 주로 표본 크기 n−1n-1로 정의.
- 정규분포와 비슷하지만, 자유도가 작을수록 꼬리가 더 두껍고 분산이 큼.
- 자유도가 커질수록(예: df>30df > 30) 정규분포에 수렴.
- 수식: 확률 밀도 함수는 복잡하지만, 일반적으로 다음과 같은 형태로 표현: f(t)=Γ(ν+12)νπ⋅Γ(ν2)(1+t2ν)−ν+12f(t) = \frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi} \cdot \Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}} 여기서 ν\nu는 자유도, Γ\Gamma는 감마 함수.
사용 사례
- 모집단 분산을 모를 때 표본 평균의 신뢰구간 추정.
- 가설 검정(예: t 테스트)에서 사용.
t 테스트 (t Test)
t 테스트는 두 집단의 평균 차이를 검정하거나, 한 집단의 평균이 특정 값과 같은지를 검정하는 통계적 방법입니다. t 분산을 기반으로 하며, 주로 표본 크기가 작거나 모집단 분산을 모를 때 사용됩니다.
t 테스트의 종류
- 일표본 t 테스트 (One-Sample t Test):
- 한 표본의 평균이 특정 값(모집단 평균 μ0\mu_0)과 같은지 검정.
- 검정 통계량: t=xˉ−μ0s/nt = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} 여기서 xˉ\bar{x}는 표본 평균, ss는 표본 표준편차, nn은 표본 크기.
- 예: 학생들의 평균 시험 점수가 70점인지 검정.
- 독립표본 t 테스트 (Independent Two-Sample t Test):
- 두 독립 집단의 평균 차이를 검정.
- 검정 통계량: t=xˉ1−xˉ2s12n1+s22n2t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} 여기서 xˉ1,xˉ2\bar{x}_1, \bar{x}_2는 두 집단의 표본 평균, s12,s22s_1^2, s_2^2는 표본 분산, n1,n2n_1, n_2는 표본 크기.
- 가정: 두 집단의 분산이 동일하거나 다를 수 있음(분산 동일성 검정 필요, 예: Levene’s test).
- 예: 남학생과 여학생의 수학 점수 평균 차이 검정.
- 대응표본 t 테스트 (Paired t Test):
- 동일한 대상에서 두 조건(예: 전후 측정)의 평균 차이를 검정.
- 검정 통계량: t=dˉsd/nt = \frac{\bar{d}}{s_d / \sqrt{n}} 여기서 dˉ\bar{d}는 차이(x1−x2x_1 - x_2)의 평균, sds_d는 차이의 표준편차.
- 예: 다이어트 전후 체중 차이 검정.
가정
- 데이터가 정규분포를 따름(표본 크기가 크면 중심극한정리에 의해 완화 가능).
- 독립표본 t 테스트에서는 두 집단이 독립.
- 분산 동일성(독립표본 t 테스트의 경우, 필요 시 Welch’s t 테스트 사용).
절차
- 귀무가설(H0H_0)과 대립가설(H1H_1) 설정.
- 예: H0H_0: 두 집단의 평균이 같다. H1H_1: 평균이 다르다.
- t 통계량 계산.
- 자유도 확인 및 t 분산표 또는 p-값을 통해 유의성 검정.
- p-값이 유의수준(α\alpha, 보통 0.05)보다 작으면 귀무가설 기각.
예시: 독립표본 t 테스트
- 남학생(n1=10,xˉ1=75,s1=5n_1=10, \bar{x}_1=75, s_1=5)과 여학생(n2=12,xˉ2=70,s2=6n_2=12, \bar{x}_2=70, s_2=6)의 시험 점수 평균 차이 검정.
- H0H_0: μ1=μ2\mu_1 = \mu_2, H1H_1: μ1≠μ2\mu_1 \neq \mu_2.
- t 통계량: t=75−705210+6212≈52.5+3≈2.04t = \frac{75 - 70}{\sqrt{\frac{5^2}{10} + \frac{6^2}{12}}} \approx \frac{5}{\sqrt{2.5 + 3}} \approx 2.04
- 자유도: 근사적으로 df≈19df \approx 19.
- p-값 확인(양측 검정): p<0.05p < 0.05라면 귀무가설 기각, 즉 평균 차이가 유의미.
요약
- t 분산: 작은 표본 크기에서 평균 추정 및 가설 검정에 사용되는 분포. 자유도에 따라 모양 변화.
- t 테스트: 표본 평균 비교를 위한 검정 방법. 일표본, 독립표본, 대응표본 테스트로 나뉨.
- 장점: 간단하고 소규모 데이터에 적합.
- 단점: 정규성 가정이 필요하며, 이상치에 민감할 수 있음.