2012년 8월 3일 금요일

가설 검정의 기본-모평균에 대한 가설 검정

[미리 밝히는 글] 이 글은 대학을 졸업한지 20년이 넘었지만 아직도 통계에 대한 기본 개념이 부족한 본인의 무지를 일깨우기 위해 다시 공부를 한다는 자세로 작성하고 있는 것이다. 따라서 오류나 잘못 설명된 부분이 있을 수 있다. 혹시 인터넷 서핑 중에 이 글을 발견한 독자가 있으시다면, 그저 수학적 지식이 부족한 전통적인 생물학자가 작성한 에세이 정도로 생각해 주시길.

보통의 기초 통계학 교과서에서는 점추정, 구간 추정에 대한 설명이 나온 뒤 바로 가설 검정에 관한 부분이 이어진다. 종이에 종 모양의 그림을 그리고 수직선을 몇 개 그은 뒤 여기가 기각역이고 유의수준이 어쩌고... 기계적으로 암기하고 단순한 문제를 풀 수는 있다. 그런데 진정한 이해가 뒷받침되지 않으니 내 의식은 20년이 넘게 무지와 몰이해의 늪을 헤매고 있는 듯하다. 정말 부끄러운 일이 아닐 수 없다.

가설 검정의 이론에 대한 설명은 여러 가지 방법이 가능하다. 내가 갖고 있는 기초 통계학 책만 해도 대여섯권은 될 터이니. 이 글에서는 UC Berkeley의 Steve Selvin이 지은 BIOSTATISTICS: How It Works (Pearson 2004)의 187쪽부터 나오는 부분을 공부하면서 느낀 바를 요약하고자 한다.

통계적 가설(statistical hypothesis)을 아주 단순하게 정의한다면, sampled variable의 확률 분포에 대해 짐작하는 것을 의미하다. 예를 들자면 이런 것이다. "특정한 관찰값을 나오게 한 모집단의 평균값은 얼마이다" 이런... 여기에서 그리스 알파벳을 어떻게 적어야 하는 거지.

일반적으로 가설 검정은 귀무가설 H0과 대립가설 H1 중 하나를 고르는 과정이 된다. 물론 이 과정에는 오류가 있을 수 있다. H0가 옳은데도 기각하게 되는 것을 Type I error 혹은 false positive error라 한다. 반대로, H1이 옳은데도 이를 받아들이지 않는 오류를 Type II error 혹은 false negative error라 부른다. 그러면 무엇을 귀무가설로 설정할 것인가? 현재까지의 일반적인 믿음을 귀무가설로 하는 것이 정석이다. 예를 들어 고혈압 치료제의 효능을 검사하는 경우를 생각해 보자. 약을 투여한 사람에 대해서 혈압을 측정했더니 어떤 평균값이 얻어졌다고 하자. 이때의 귀무 가설은, 이들의 혈압은 투여하지 않은 상태의 평균치와 같다는 것이 귀무 가설이된다. 이 고혈압 환자의 수축기 평균 혈압은 140 mmHg이었다. 그런데 이들 중 20명을 취해서 약을 투여한 뒤 다시 혈압을 재어 평균을 내니 134가 나왔다고 하자. 분명 134는 140과 다른 수치이다. 그러나 모평균이 140인 집단에서 20명을 취하여 아무런 조치를 취하지 않은 상태에서 혈압을 재면 random variation에 의해 134라는 값이 나올 가능성은 얼마든지 있다. 따라서 이러한 차이는 약물에 의한 것이 아니라 정상적인 확률 분포에서 있을 수 있는 일이 벌어진 것이라고 결론을 내린다면, 결국 귀무 가설을 기각하지 못하는 것이다. 이번에는 약물 투여군의 평균 수축기 혈압이 131이라고 해 보자. 알려진 모평균보다는 좀 더 멀어졌다. 만약 이 표본 평균이 모평균에 비해 점점 멀어진다면, 이러한 차이는 확률 분포에 의해 자연스럽게 일어졌다고 보기는 점점 어려워진다. 차라리 약물투여군의 평균 혈압(모평균)이 아예 낮아졌다고 보는 것이 더 타당하게 된다. 이렇듯 알려진 모평균과 실제 측정한 표본평균 사이의 차이가 얼마나 멀어지면 귀무가설을 기각하는 것이 타당할까? 이에 대한 기준을 제시하는 것이 바로 유의수준(1%나 5%와 같은 확률로 주어짐)이고, 귀무가설을 기각할 수 있는 측정값의 경계가 되는 값이 바로 critical value(임계값)이다.

유의수준이란, 귀무가설이 참인데도 불구하고 대립가설을 채택하게 될 확률이다. 즉 유의수준이란 Type I error가 발생할 확률을 의미하며, 1 - (유의수준) = (신뢰도)이다. 다시 한 번 위의 예제를 들어 설명해 보자. 이 고혈압 환자의 평균 수축기 혈압은 140이고, 정규분포를 한다고 가정하면 이론적으로는 30이나 350과 같은 극단적인 수치가 나올 가능성이 있다. 그러나 이런 값이 나올 가능성은 매우 낮다. 100번에 1번(쉽게 말해 1%) 나올 정도로 모평균에서 먼 값이 나온다면, 차라리 모평균 자체가 다르다고 가정하는 것이 낫다. 여기서의 1%가 바로 유의수준이 되는 것이다.

여기서 또 부끄러운 고백을 아니할 수 없다. 가설 검정 문제에서 표본 평균이 항상 나오게 되므로, 나는 그동안 표본 평균으로부터 모평균이 포함될 신뢰구간을 구해 놓고서는 귀무가설에서의 모평균이 이 구간내에 있는지 혹은 바깥에 있는지를 가지고 가설을 검정하려고 했었다. 그런데 지금 와서 기초 통계 교과서를 살펴보면 이런 방식으로 접근하는 것이 보이지 않는다. 아마도 대부분의 교과서에서 신뢰구간 다음에 가설 검정이 나오기 때문에 이런 오해를 하게 된 것 같다. 이러한 방식의 풀이가 수학적으로 정말 맞는지를 증명할 실력은 되지 않는다. 일단은 잘못된(?) 믿음을 버리고, 일반적인 풀이의 방법으로 되돌아가도록 하자.

그러면 다시 Selvin의 책 190쪽에 나온 예제로 돌아가 보도록 하자. 어떤 집단의 혈압 모평균이 130 mm Hg이고 분산은 400으로 알려져 있다. 새로운 약을 투여했더니 16명의 무작위 표본으로부터 평균 120 mm Hg의 혈압 측정값을 얻을 수 있었다. 이 약은 정말로 혈압을 낮추는 효과가 있을까?

H0 : 혈압은 여전히 130이다(약물의 효과가 없다)
H1 : 혈압은 120이다(130보다 낮다).

표본평균이 130에 충분히 가깝다면 귀무가설을 채택해야 하고, 상당히 멀다면(130보다 상당히 작다면) 대립가설을 채택해야 한다. 그렇다면 가까운 정도를 정의해야 할 것이다. 첫번째 과정에서는 귀무가설을 기각시킬 수 있는 표본 평균의 값 c를 결정해야 한다. 이때 모든 c의 범위를 기각역이라고 한다. 본 예제에서는 표본평균 < c 이면 귀무가설을 기각하도록 하는 c를 구해야 한다. 임계치는 Type I error가 충분히 작아지도록 만드는 값으로부터 결정한다.


(흐유, 한컴오피스 한/글에서 수식 입력하느라 힘들었다) 위의 식에서 c의 값을 계산할 수 있다. 실제 계산을 해 보면 c = 121.8이다. 만일 표본평균이 이보다 작으면, 귀무가설은 기간한다. 단측검정 혹은 양측검정의 여부는 대립가설의 형태에 따라 정해진다. 

Type I error의 확률에 기반하여 기각역을 결정했다면, 다음으로는 Type II error를 생각해 보도록 하자. Type II error는 어떤 경우에 발생하는가? 모평균이 변해서 이에 따라 표본평균도 다르게 나왔는데, 이를 random variation에 의해 차이가 발생했다고 생각하고 귀무가설을 그대로 인정한다면 바로 Type II error를 범하게 되는 것이다. 

댓글 2개:

Dohyup Kim :

안녕하세요. 저는 미국 모 주립대학에서 Bioinformatics를 전공하고 있는 박사과정 학생입니다.
미국에서 학사과정을 Bioinformatics 전공하고 계속 여기에 있는터라 국내에서는 얼마나 bioinformatics에 대한 리서치가 이뤄지고 있는지는 잘 몰랐는데 우연한 찰나에 블로그에 들어오게 되었네요.
저도 bioinformatics를 그냥 프로그래밍으로만 취급하다가 항상 통계학 과정에서 막혀서 지금도 끙끙 앓고 있습니다.
앞으로도 좋은 포스트 많이 올려주세요.
그럼 좋은하루 되세요~

정해영 (Haeyoung JEONG) :

죄송합니다만 저는 어떤 시리즈물을 기획하여 작성하는 것이 아니라서^^ 그저 생각이 나는대로 아주 불규칙적으로 글을 쓸 따름입니다.