2012년 8월 2일 목요일

통계는 어렵다?

참 이상한 일이다. 대학과 대학원때 각각 3학점씩 하는 [확률과 통계] 과정을 두 번이나 수강하였고, 전부 A학점을 받은 것으로 기억하는데도, 왜 biodata의 분석에 써먹을 정도의 기본 개념이 남아있지 않은 것일까? 단순한 망각일까, 시험 문제 풀이는 겨우 했지만 제대로 된 개념을 결국은 잡지 못한 것일까, 아니면 실제 데이터를 가지고 충분한 연습을 하지 않았기 때문일까? KOBIC에서 열리는 제10차 차세대 생명정보학 교육 워크샵을 수강하면서, 그나마 실낱과 같이 남아있는 용어들의 정의에 대한 기억을 되살릴 수 있음을 감사하고 있다.

KRIBB에 와서도 부족한 개념을 보충하기 위해 KAIST 산업공학과 채경철 교수님의 통계학 수업을 잠시 청강한 적이 있다. 한 학기를 제대로 채우지 못했지만, 이 과정을 통해서 남긴 가장 중요한 '개념'은 "확률변수란 표본점에 실수를 대응시키는 함수"라는 것이다. 변수라는 이름이 붙어 있기에 오해를 하기 쉬운데, 실제 일어날 수 있는 모든 이벤트라는 정의구역에 대해 '실수'를 대응시키는 함수이다. 쉬운 예를 들자면, 20마리의 실험용 생쥐에 독성 물질을  주사하여 테스트하는 경우를 생각해 보자. 어떤 물질을 투여했을때 죽은 쥐의 수가 바로 확률 변수의 한 예에 해당한다.

확률변수가 함수라는 개념을 확실히 갖고 있지 않으면, P(X=x)라는 표기를 이해하기 어렵다. 그냥 p(x)라고 하면 되는 것 아닌가? 그렇지 않다. X는 확률 변수(함수)이고, 이 함수의 값이 x(즉 X = x)일 경우에 해당하는 확률을 P(X=x)로 표시하는 것이다. 만약 이 확률변수가 f(x)라는 분포함수를 갖고 있다면, P(X=x) = f(x)라고 표시할 수 있겠다. 오늘 UNIST 남덕우 교수의 강의에 따르면 확률에서 대문자는 변수요, 소문자는 상수라고 하였다. 예외가 하나 있는데, 그것은 N(모집단의 크기)과 n(표본의 크기)이다.

다음으로 이해하기 어려운 것은 표본 표준편차를 구할 때 표본 크기(n)가 아니라 n - 1로 나누는 것이다. 이것은 어느 기초 통계학 책에서나 충분히 설명을 하고 있으니 걱정할 것은 없다.

부끄러운 이야기지만 아직까지도 나를 혼동스럽게 하는 것은 가설 검정과 구간 추정 부분이다. 양측 검정과 단측 검정을 각각 어떤 경우에 해야 하는지도 아직 혼동할 정도이니... 정답을 먼저 이야기하자면 대립가설이 어떤 형태냐에 따라 달라지게 된다.

우선 중요한 숫자 몇 가지만 기억하도록 하자. 정규분포에서 평균을 중심으로 하여 +/-1 표준편차 이내의 구간에는 전체 데이터의 68.3%가 존재한다. +/- 2 표준편차에는 95.4%,  +/- 3 표준편차 내에는 99.7%가 존재한다. 이를 68-95-99.7 법칙이라 한다.

자, 그러면 표본평균에서 추정한 모평균의 신뢰구간을 생각해 보자. 표본의 수가 충분히 크면, 모집단이 어떤 분포를 따르든 상관없이 표본평균은 정규분포를 따르게 된다. 이론적으로  정규분포는 극단에 치우친 어떤 값도 가질 수 있지만, 평균에서 지나치게 멀리 떨어진 값이 나올 확률은 매우 적어진다. 따라서 이러한 극단의 값이 나오게 된다면(기각역에 포함될 경우) 차라리 평균의 위치를 옮기는 것이 더 타당하게 된다.  그러면 도대체 평균에서 얼마나 멀어야 극단으로 정의할 것인가? 이를 정의하는 것이 바로 신뢰도와 오차율(alpha)이다.

신뢰구간은 매우 정확하게 이해해야 한다. 모평균은 이미 결정되어 있는 숫자이다. 신뢰구간은 한 번의 표본추출(표본 크기가 1이라는 뜻이 아니다!!)에서 얻은 표본 평균에서 계산으로 얻어진다. 표본 평균은 매번 다르게 나오므로, 신뢰구간의 모습도 매번 달라질 수 밖에 없다. 표본 추출을 100번해서 모평균의 구간을 추정했더니, 그중 95번은 신뢰구간 안에 실제 모평균이 들어가게 된다 - 이것이 바로 95% 신뢰구간의 정확한 의미이다.

댓글 없음: