2017년 12월 18일 월요일

독서 기록 - 통계의 힘(니시우치 히로무 지음/신현호 옮김)

2014년 12월에 구입해서 거의 다 읽었다가 마지막에 집중력이 흐려져서 독서를 마무리하지 못했던 책을 다시 붙들고 처음부터 꼼꼼하게 읽었다. 책의 정식 제목은 '통계의 힘'이지만 부제를 붙이면 '빅테이터를 지배하는 통계의 힘'이다. 요즘은 AI(인공지능)·4차 산업혁명에 약간 가리워진 느낌이 없지는 않으나 방대한 데이터로부터 의미를 추출하는 과정에서 통계의 중요성은 말할 나위가 없다.


이 책은 통계학 입문서나 교재가 절대로 아니다. 일반 독자에게 통계한 이런 것임을 보여주기 위한 교양 서적이다. 그럼에도 불구하고 회귀분석, 일반화 선형모델(generalized linear model), 빈도론자와 베이즈론자의 대립 등 그동안 피상적으로만 이해했던 중요한 개념들을 알기 쉽게 설명하였다. 특히 현대 통계학의 기반을 마련한 로널드 피셔와 그의 유명한 밀크티 일화가 소개되어 흥미를 돋우고 있다. 밀크티를 만들 때 홍차에 우유를 넣었는지, 혹은 그 반대로 우유에 홍차를 넣었는지를 정확하게 알아맞힌다는 어떤 부인의 주장을 검증하기 위하여 피셔는 세계 최초의 임의화 비교실험을 수립하였다. 그 과정은 피셔가 1935년에 쓴 책 <실험계획법(The Design of Experiments)>에 잘 소개되었다고 한다. 피셔는 비료가 작물의 생산성이 효과를 주는지를 알아보기 위하여 경작지를 어떻게 구획하고 각각 어떻게 처리를 해야 하는지를 상세하게 연구하였다고 한다. 말하자면 현대 통계학은 생물통계학의 역사와 그 뿌리가 같은 셈이다. 통계학이 먼저 확립되고 난 다음에 생물학 분야에 적용된 것이 아니라는 뜻이다.

55쪽의 도표 5에서는 빅데이터 관련 전문용어를 설명하고 있는데, 맨 마지막 칸에 보인 R언어에 대한 설명이 재미있다. '오픈소스의 통계해석용 언어'. 유료 소프트웨어를 살 수 없는 비교적 가난한 학자들이 사용하는 언어인데, 최근 갑자기 주목을 받고 있다. 엑사데이터나 그린플럼, 나아가 SPSS로부터도 직접 R 라이이브러리를 호출할 수 있게 되었다.'

이 책의 결론은 다음의 도표 한 장으로 나타낼 수 있다. 설명변수가 몇개인지 여부에 상관없이 일반화 선형모델을 사용하여 (거의) 모든 통계적 분석을 감당할 수 있다는 것이다.


문맹(文盲)보다 더 무서운 것이 통계맹이라는 말도 있다. 요즘은 새로운 주장을 하기 위한 근거로서 여러 수치 자료를 제시하는 경우가 많은데, 통계학적 관점에서 볼 때 오류가 있거나 심지어는 의도적으로 자료의 의미를 왜곡하는 일이 벌어지고는 한다. 오죽하면 '세상에는 두 가지 거짓말이 있으니 하나는 새빨간 거짓말이요, 나머지는 통계'라는 말까지 있지 않은가. 통계는 정확히 쓰여야 하고 어떤 주장을 일방적으로 지지하기 위한 목적으로 악용되어서도 안된다. 또한 단순한 집계와 통계를 구별할 줄 알아야만 한다. 수학적 리터러시(literacy - 읽고 쓰는 능력 또는 특정 분야의 지식), 특히 통계 리터러시가 있어야 이러한 근거를 이용한 잘못된 주장을 제대로 파악하고 대처할 수 있는 것이다.

데이터가 말하려는 것은 무엇인가? 이것을 정확하게 파악하는 것이 통계학의 중요한 목표 중 하나라고 본다. 데이터가 말하는 바를 귀담아 듣고 판단을 내리는 것은 결코 쉬운 노릇은 아니다. 그래서인지 지금은 이 과정 자체를 AI가 하도록 내버려 두는 것 같다. 가까운 예로 각종 인터넷 구매 사이트에서 내 구매 성향을 파악하여 쇼핑할 거리를 제안하는 서비스가 그렇다. 이렇게 판단 자체를 인공지능에 맡기고 남는 시간에는 더 가치있는 일을 하겠다는 멋진 전제와 함께 말이다. 그런데 과연 미래는 커즈와일이 예측한 대로 그렇게 장미빛으로만 돌아갈까? 최근에 읽은 소설 <밈:언어가 사라진 세상>(독후감은 곧 블로그에 쓸 예정)과 니콜라스 G. 카의 주장(IT doesn't matter (2003) - 하바드 비즈니스 리뷰, 2016년 블로터의 논평; 2014년 <유리 감옥, 자동화와 우리> 출간 직후의 인터뷰)을 보면 걱정이 밀려온다.
이 책(유리 감옥)은 소프트웨어 개발자를 포함 많은 직종이 '디스킬(Deskill, 일을 처리하는데 필요한 숙련도 수준이 낮아짐)' 될 수 있다고 경고한다. 업무 프로세스의 상당 부분이 기계로 넘어간다는 이유에서다.
그렇다고 러다이트(Luddites, 신기술 반대자)를 옹호하는 책은 아니다. 이보다는 우리를 대체할 시스템이 초래할 결과와 파장을 훌륭히 탐구하고 있는 책이다. 연방 항공청(FAA)의 항공 자동화에 대한 경고, 전자 의료 기록이 초래할 수 있는 비용 상승과 건강 악영향 등에서 카가 우려하는 부분을 확인할 수 있다.

통계학 자체는 가치 중립적인 도구이다. 이 점은 명심해야 한다. 통계적 결론을 악용하는 것, 그리고 최종 판단을 내리는 주체 역할을 하지 않으려는 것, 이 두가지를 경계해야 할 것이다.

Statistics for Biologists

과학잡지 Nature에서는 생물학자를 위한 통계학 정보 콜렉션을 운영한다.


Statistics in biology, practical guides, points of significants 및 other resources로 구성되어 있으니 통계학 입문서 단행본을 읽다가 지루해지면 종종 방문해 보도록 하자.

댓글 없음: