[통계학 관련 토막글] p-value의 올바른 이해

지난 11월 27일 경향신문에 실린 [전문가의 세계 - 이종필의 과학자의 발상법](10)범죄 현장 DNA와 당신의 것이 일치하는데 범인이 아닐 수도 있을까를 재미있게 읽었다. 범행 현장에 남아있는 인체 유래물(핏자국, 땀, 침, 체모...)에서 DNA를 추출한 뒤 이것이 용의자의 것과 일치하면, 그 용의자를 범인으로 주장할 수 있는 강력한 증거가 된다. 범죄 수사와 반드시 연관된 것은 아니지만 개인 간의 다툼에서 벌어지는 친자확인 검사도 동일한 생물학적 원리에 기초를 둔 것으로 알고 있다.

나는 분자생물학 전공자이지만 주로 미생물 유전체만을 다루고 있어서 이 분야를 잘 알지는 못한다. 실제로는 어떻게 국내 유전자를 이용한 개인 식별을 하고 있을까? 유전체 분석 업체 중 매우 잘 알려진 마크로젠의 'Human ID 검사 서비스' 웹사이트를 방문해 보았다.

개인식별 검사 또는 DNA 프로파일링(DNA profiling)은 범죄수사 시 유전자 검사 방법으로 이용되고 있습니다. Human ID는 국제표준화 분석 기법(미국 FBI에서 사용하는 CODIS의 유전자 좌위)을 기반으로 16개의 STR 유전자 좌위를 분석해 개인 식별 검사를 진행하고 있습니다. STR(Short Tandem Repeat)은 사람의 DNA 염기서열 중에 2~7개의 염기가 연속적으로 반복되는 구간을 의미하는 것으로서 분석 방법은 부모로부터 혈액형을 물려받는 것과 유사합니다.

윤지훈 님의 블로그 [두마디 정밀의료]에는 STR과 VNTR(Variable Number Tandem Repeat)을 그림으로 쉽게 설명한 글(링크)이 있다. 미생물의 타이핑에 널리 쓰이는 VNTR은 반복 서열 염기가 수십~수백개 정도로 STR(2~7 염기)보다 더 긴 경우를 일컬을 때 사용한다. 그러나 STR과 VNTR을 나누는 반복 단위 염기의 길이 기준은 그렇게 명확한 것 같지는 않다. 예를 들어 Molecular typing of Mycobacterium tuberculosis by using nine novel variable-number tandem repeat across the Beijing family and low-copy-number IS6110 isolates라는 논문의 표 2를 보면 3, 6, 9, 11, 18, 55 등 다양한 반복 단위를 갖는 것들을 전부 결핵균의 VNTR로 집계했기 때문이다. STR 중에서 특별히 상염색체 위에 있는 것을 A-STR(autosomal STR)이라 하여 법의학 분야에서 널리 쓰인다.

CODIS(Combined DNA Index System)는 또 무엇인가? 이것은 미 연방수사국, 즉 FBI에서 만들고 유지 관리하는 DNA 데이터베이스의 일종으로, 2017년 1월 현재 20개의 CODIS Core Locus(좌위; 복수형이니 Loci로 적어야 되겠지만)가 정의되어 있다.

각 STR 좌위에서 일어나는 반복 회수는 개인별로 차이가 심하고(즉 highly polymorphic) 부모에게서 물려받는 것과 동일하다. 마크로젠에서는 최소 15개 이상의 좌위를 PCR로 분석하여 반복 회수의 프로파일을 얻은 다음 두 시료 간의 동일성 여부를 확인한다. 친자확인검사를 제공하는 어떤 기업에서는 24개까지의 STR 좌위를 조사하는 것 같다. 그리고 STR 마커를 사용한다는 점에서는 유사하지만, 판정에 필요한 수치를 제공하는 방식은 범죄를 다루는 문제와 친자를 확인하는 문제에서 다르게 나타난다. 즉, 16개 좌위를 검사했더니 두 샘플이 일치했다(법의학적 문제)고 해서 끝나는 것이 아니다. 인구 집단에서 각 allele(대립유전자)의 실제 빈도가 중요하며, 또한 친자 확인 문제에서는 샘플과 추정부의 allele 각각 두 개씩을 고려해야 한다. 법의학 문제라면 검사법에 문제가 없는 경우 샘플과 용의자의 allele은 동일 좌위에 대해서 당연히 같을 것이다.

중요한 개념 두 가지를 알아보았으니, 실제 범죄현장에서 수집된 DNA와 용의자 사이에서 검사를 실시한 모든 STR 좌위가 일치하는 반복회수를 나타내는 경우 이를 어떻게 해석해야 하는지를 알아보자. 이것이 이종필 님의 글에서 다루는 주제에 해당한다. 대개는 개인의 운명을 좌지우지할 법률적인 결정이 따르게 되므로 결코 가벼이 다룰 수 없다. 용의자가 여럿인데 어느 하나의 STR 좌위라도 반복 회수가 맞지 않는다면, 즉 DNA profile이 일치하지 않는 사람은 일단 자유의 몸이 될 것이다. DNA profile이 일치하는 용의자가 나왔다면 그 다음으로 할 일은 이러한 유전형을 가진 사람이 인구집단 내에 나올 확률을 계산하는 것이다. 이를 계산하려면 인구집단에 대하여 STR 좌위의 각 allele(반복 회수가 다르게 나타나는 대립유전자) 빈도에 대한 데이터가 필요하고, Hardy-Weinberg의 법칙을 알아야 한다. 다음 2017년도 논문은 2천 명의 한국인에 대한 20개 STR 좌위의 allele frequency에 관한 것이다.

Allele frequency data of 20 STR loci in 2000 Korean individuals. Forensic Science International: Genetics Supplement Series 6 (2017) e65-e68.

실제 계산 사례는 人codom의 동일성지수(identity index) 항목을 살펴보면 된다. 각 좌위에 대하여 용의자의 STR allele이 관찰된 빈도를 Hardy-Weinberg 법칙에 따라 계산한 뒤 이를 전부 곱하면 이는 combined frequency에 해당하며(동일성 지수는 이것의 역수) 매우 적은 숫자가 나오게 된다. 人codom의 사례에서 combined frequency는 2.19 x 10^-15로 계산된다. 이 숫자는 무엇을 의미하는가? 지나가는 사람을 아무나 하나 붙들었을 때 이러한 DNA profile이 나올 확률이 이렇게 적다는 뜻이다. 즉, 범죄 현장의 DNA에서 확인된 profile이 특정된 용의자가 아닌, 이번 범죄와 전혀 무관한 사람에게서 나타날 확률을 의미한다. 이 확률이 이렇게 낮기 때문에 범죄현장의 DNA는 바로 그 용의자에서 왔을 수밖에 없다. 이상의 설명은 Nature Education에 실린 Forensic, DNA fingerprinting, and CODIS를 참조하였다. 좀 더 깊은 수준으로 공부하고 싶다면 John V. Planz의 Forensic Statistics(15th Symposium on Human Identification 강연 자료)를 참조하기 바란다. 이런 자료가 국문으로는 잘 제공되지 않는다는 현실이 안타깝다. 몇몇 전문가들만 관여하는 매우 제한된 분야라서 그러한 것 같다.

지금까지는 유전자 감식에 관한 기초적인 사항을 공부한 서론에 지나지 않는다. 이제 본론에 들어가 보자. 이종필 님은 p-value를 설명하기 위해 유전자 감식의 사례를 들었다. p-value는 아주 쉽게 설명할 수도 있고, 어렵게 설명할 수도 있다. 쉽게 설명하자면 이러하다. p-value란, 순전히 우연에 의해 관찰된 차이가 나타날 수 있는 확률이다. 중간 정도의 난이도로 설명한다면, p-value란 귀무가설이 참일 때 관찰된 값 혹은 그보다 더 극단적인 값이 나올 수 있는 확률이다. 그 값이 일정 기준(유의 수준, 보통 5% 또는 1%) 미만으로 나온다면 귀무가설의 상황에서는 일어나기 힘든 상황이 되므로 귀무가설을 기각할 수 있다.

유전자 감식의 문제에서 귀무가설 및 p-value를 적용할 수 있을까? 먼저 이종필 님의 글의 도입부를 살펴보자. DNA 감식 결과로서 주어지는 숫자(99.99999...%)는 질병 진단에서의 특이도(specificity)에 해당한다고 설명하였다. 즉, 감염병에 걸린 사람을 가려내는 진단법의 성능을 나타내는 수치 중 민감도(병에 걸린 사람을 양성으로 판정하는 확률)와 더불어 매우 중요하게 취급되는 지표이다. 진단법 사례에서 특이도란 건강한 사람을 음성으로 판별할 확률이다. 진단법 문제에서는 벤다이어그램으로 설명하기가 아주 쉽다.

그러나 유전자 감식 문제는 이러한 그림으로 표현하기가 어렵다. 모집단을 어떻게 정의해야 하는가? '검사'라는 행위로 타원을 둘러칠 표본점을 정의하기도 쉽지 않다. 또한 99.9999..%하는 수치도 그러하다. 유전자 감식에서 주어지는 수치는 combined frequency로서 0에 매우 가까운 수이다. 다시 말하자면 주어진 인구 집단에서 범죄와는 아무런 상관도 없는 사람이 범죄 현장에서 발견된 범인(의 것이 확실시되는)의 DNA와 같은 allele profile을 나타낼 확률을 의미한다. 수십억 분의 1과 같이 작은 값이 나오는 것이지, 99.9999...%와 같이 1에 가까운 값이 나오지는 않는다. 혹시 1 - (combined frequency)를 의미하는 것일까? 그렇게 순진하게 계산한 값은 아닐 것이다.

친부확률(POP, probability of paternity)

이 검사에서는 99.9% 또는 99.99% 등으로 표현되는 친부확률이 주어진다. 범죄 문제에서도 이러한 확률이 실제로 주어지는지, 혹은 언론에서 일반인이 알기 쉽게 감정 결과의 신뢰도를 이러한 수치(확률)로 표현하는 것인지는 잘 모르겠다. CPI, 즉 combined paternity index에서 POP를 계산하려면 베이즈 정리를 응용한 계산이 필요하다. 그러면 Probability of identity도 정의되어야 하지 않나?

p-value의 문제

또 이 글에서는 "(용의자) '놀부'가 무죄이다"를 귀무가설로 하였다. 이러한 가정 하에서 사건 현장에서 확인된 DNA와 놀부의 DNA profile이 같을 확률을 p라 할 수 있다('p'가 combined frequency와 완전히 동치인가에 대해서는 고민이 필요하지만). 그 확률이 매우 낮다면 우연하게 일어날 사건의 가능성이 매우 낮음에 해당하므로 사건 현장의 DNA가 놀부의 것이라고 판정하게 되는 것이다. p값을 이렇게 비유하여 설명해도 되는 것인지는 아직 확신하기 어렵다.

p값은 만능 열쇠가 아니다. 법과학에서 p값을 남용하는것을 경계하는(그래도 가끔은 쓸모가 있다는) 글을 찾았기에 소개해 본다.

p-values are rarely used in forensic science. That is (not) too bad - 아이오와 주립대 Alicia Carriquiry

이종필 님의 기고한 글의 주제는 p-value를 오남용하지 말자는 것이다. 이를 둘러싼 문제점이 너무나 심했기에 2016년 미국 통계학회에서는 p-value의 해석과 이용에 관한 여섯 가지 원칙을 제시했다고 한다. 기고문에 실린 글을 그대로 인용해 보면 다음과 같다.

p값은 특정 통계모형과 데이터가 얼마나 양립불가능한지를 나타낼 수 있다.
p값은 검토 중인 가설이 참일 확률, 또는 데이터가 무작위적인 우연에 의해서만 만들어졌을 확률을 측정하지 않는다.
오직 p값이 특정한 문턱값을 넘었는지 여부에만 기초해서 과학적 결론과 사업 또는 정책적 결정을 내려서는 안 된다.
적절한 추론을 하려면 완전한 보고와 투명성이 필요하다.
p값 또는 통계적 유의성은 어떤 효과의 크기나 결과의 중요성을 측정하지 않는다.
p값 자체는 모형이나 가설과 관련된 증거를 제대로 측정하지 못한다.

미국 통계학회지에 실린 원문은 The ASA statement of statistical significance and p-values: context, process, and purpose(The American Statistician 70, 2016 - Issue 2)이다. ASA란 American Statistical Association을 의미한다. 원문은 Mount Holyoke College의 명예교수인 George Cobb이 ASA 토론 포럼에 올린 질문에서 이 문제가 비롯되었음을 밝히고 있다.

[Q] 왜 그렇게 많은 학교에서 p = 0.05를 가르치는 건가요?
[A] 학계와 논문 편집자가 그렇게 쓰기 때문이지요.
[Q] 왜 그렇게 많은 사람이 p = 0.05를 사용하나요?
[A] 그렇게 배웠으니까요.

이종필 님이 p-value를 쉽게 설명하기 위하여 든 사례는 어쩌면 과학적으로 정확하지 않을 수도 있다. 그러나 일반인에게 통계의 개념을 쉽게 소개하기 위하여 쓴 글이므로 정확성을 약간 희생하는 것은 있을 수 있는 일이다.

유전자 감식 문제를 미생물(세균)로 확장하면 어떻게 될까? 사람의 유전자 감식에서처럼 STR을 이용한 감식은 쉽지 않은 것으로 여겨진다. 왜 그럴까? 우선 세균은 mutation rate가 사람보다는 높다(최근의 연구 결과에 따르면 그렇지 않을 수도 있으며, 이에 대해서는 나중에 논하겠음). 따라서 출처가 같은 미생물이라 해도 검사를 하는 시점에는 몇 개의 변이가 이미 발생했을 수 있다. 유전자의 수평적 전달이 매우 흔하게 일어난다는 것도 미생물의 정확한 계보를 파악하기 어렵게 만드는 요인이 되기도 한다. 그러나 이 현상은 검사대상 미생물이 최근까지 실험실에서 인공적으로 배양된 것이라면 일어나기 힘드므로 오히려 동일 기원을 부정하는 용도로 쓰일 수 있다. 출처가 자연계라면 유전적으로 균질한 집단이라는 보장이 없으니 해석은 좀 더 까다로와진다. 그리고 STR allele에 대한 집단 내 빈도가 일반적으로 알려져 있지 않다. 그런 것이 존재한다고 해도 특정 strain에 국한될 것이 뻔하다. 그리고 strain과 strain 사이의 유전적 차이는 그야말로 엄청나다. 아주 중요한 감염병을 일으키는 세균이 있어서 그에 대한 STR DB가 마련되었다 해도, 모든 좌위를 PCR하여 검사하느니 차라리 whole-genome sequencing(WGS)을 하는 것이 더 낫다.

사람의 유전자 감식에서는 예를 들어 16개의 STR 좌위가 일치하는 결과가 나왔는데 우연의 일치로 이러한 값이 나올 확률을 논한다. 반면 미생물의 경우라면 WGS을 통해서 얻은 몇 개의 SNP를 가지고서 이것이 동일 출처에서 온 것인지 또는 아닌지를 결정해야 하는데, 여기에 대해서 POP와 같은 지수를 제시하기는 어렵다. 그러나 SNP의 대략적인 차이, 그리고 균주 특이적 염기서열(최소한 몇 kb를 넘는)로서 확신을 가지고 이야기할 수 있다.

정해영의 블로그 - JEONG Haeyoung's blog

2020년 11월 30일 월요일