2020년 9월 25일 금요일

통계를 제대로 이해하기 - 코로나19 진단 키트의 성능과 관련한 유용한 글 소개

여러번 던지면 1부터 6까지의 모든 면이 정확히 같은 빈도로 나오도록 만들어진 공정하고도 '완벽한' 주사위가 있다고 가정하자. 이것을 20번 던졌을 때 1은 몇 번이 나올까? 이것을 따지는 학문은 확률이다. 반대로 각 면이 나오는 빈도를 알지 못한다고 가정하고(이를 모수[母數] 또는 parameter라 한다) 20회를 던졌더니 6이 세 번 나왔다고 가정하자. 이 관찰 결과를 바탕으로 6이 나올 빈도를 따지는 것이 통계다.

이렇듯 확률과 통계는 동전의 앞뒷면처럼 밀접한 관계가 있고, 학생 시절에도 하나의 큰 단원으로 취급하는 경우가 많다. 하지만 오늘은 주로 통계(학)에 관한 이야기를 해 보려고 한다. 통계학자와 수학자는 서로를 다른 분야에 종사하는 사람으로 취급한다는 말을 자주 들었다.

그리고 아주 잘 알려진 이런 말이 있다.

세상에는 세 가지 거짓말이 있다. 거짓말, 새빨간 거짓말, 그리고 통계.

통계라는 것이 국가적 정책의 시행을 위한 필요성을 뒷받침하거나, 시행 후 효과가 있음을 증명하는데 워낙 널리 쓰이다보니 이런 말이 생겨난 것 같다. 통계학(statistics)의 어원도 국가(states)에 학문을 뜻하는 어미(-tics)가 붙은 것이 아니던가? 말 그대로 국가를 관리하고, 인구의 생명을 담당하는데 고안된 학문이라는 듯이다(푸코읽기(2): 생체권력(biopower)을 참조하였음). 대한민국 정부에도 기획재정부의 외청인 통계청이라는 중앙행정기관이 있다.

뿐만 아니라 어떤 물건을 팔아야 하는데 효과가 있음을 보이려 해도 실험 결과의 통계학적 해석이 필요하다. 여기에 국가적 통제수단이 연결되면 그야말로 엄청난 권력이 휘둘러지고 그 물결을 잘 타는 자에게는 막대한 경제적 이득이 돌아간다. 새로운 의약품을 판매하려면 국가기관의 허가를 받아야 하고, 그러기 위해서는 전임상 및 임상 시험을 거쳐야 한다. 그 수치를 해석하고 판단을 내리는데 통계학이 필요하다.

숫자 자체는 거짓말을 하지 않는데, 그 숫자를 이용하려는 사람의 (숨은) 의도를 일반인이 쉽게 가려내기가 참으로 어렵다는 것이 문제이다. 2020년 들어서 수도권 집값이 얼마나 올랐을까? 기초 자료를 어떻게 모으느냐에 따라서 얼마든지 입맛에 맞는 결론을 내릴 수 있음을 우리는 이미 잘 알고 있다. 2020년에 서울대학교에 입학한 신입생 중에 서울 강남 출신이 많은 것과, 서울 강남으로 이사를 가서 공부를 하면 서울대학교를 잘 가는 것은 전혀 별개의 문제이다. 이러한 조사 결과를 입맛게 맞게 이용하는 신문 기사가 얼마나 많은가! 밑줄 친 부분이 만약 사실이라면, 그리고 이를 사실로 믿고 사람들이 강남으로 유입이 된다면 그만큼 사회가 공정하지 못하다는 뜻도 된다.

브런치에 소개된 글 하나를 먼저 가벼운 마음으로 읽어보자.

통계의 거짓말(게스트 보스바흐 외)

2019년 말, 중국 후베이성 우한시에서 SARS-CoV-2 감염증(COVID-19) 환자가 처음 발생한지 아직 만 1년이 되지 않았다. 그러나 이 감염증은 전세계를 강타하여 많은 사람들을 고통스럽게 하고 있으며, 지금까지 당연하다고 여겼던 생활 관습을 완전히 바꾸어 놓았다. 비교적 관리가 잘 되고 있다는 한국에서 만들어진 진단 키트도 인기리에 외국에 팔려 나가고 있는데, 최근 랩지노믹스라는 국내 회사의 키트가 가짜 양성이 많다면서 논란이 일고 있다. 

코로나 진단키트 美서 사용중지 논란...랩지노믹스 "키트 성능 문제 없다"

이 문제를 제대로 이해하려면 조금 어렵더라도 대상을 양성과 음성 두 가지로 판정하는 시스템의 평가 방법에 관한 공부를 해야 한다. 나도 2017년에 민감도와 특이도(sensitivity and specificity)라는 글을 블로그에 올린 적이 있었다. 간단히 설명하자면 민감도는 병에 걸린 사람이 양성 판정을 받을 확률이고, 특이도는 건강한 사람이 음성 판정을 받을 확률이다. 그리고 정밀도(precision, 또는 양성예측도positive predictive value)은 양성으로 판정된 사람 중에서 진짜 병에 걸린 사람의 비율이고, 재현율(recall)은 진짜 병에 걸린 사람 중에서 양성으로 판정된 사람의 비율이다. 재현율은 민감도를 일컫는 다른 표현이다.

일반인이 읽는 매체에 다음과 같은 글이 실리게 될 정도니 코로나19가 매우 실용적인 공부 - 확률과 통계의 매우 중요한 개념 - 를 시켜주고 있는 셈이다. 

[경향신문] 전문가의 세계 - 이종필의 과학자의 발상법(8) 코로나19 감염자를 양성으로 판정할 확률, 양성으로 판정됐을 때 실제 감염됐을 확률... 비슷한 이 두 문장, 완전 다르다

종이와 연필을 들고 찬찬히 계산을 해 나가면서 이 기고문을 읽어보자. 나처럼 정성적인 사고에 젖어있는 편향적인(?) 자연과학자의 시각을 바로잡는데 도움이 될 것이다.

댓글 없음: