2019년 4월 28일 일요일

데이터과학 입문(Doing Data Science)

'데이터과학 입문(Doing Data Science)'은 지난주에 구입한 책의 제목이다. 토요일 아침 자동차 검사소에 가서 정기검사가 끝나기를 기다리면서 전체를 찬찬히 훑어보았다. O'Reilly사의 웹사이트를 방문하면 영문으로 된 소개와 목차를 볼 수 있다(링크). 연초에 학회에서 주최했던 하루짜리 머신러닝 교육에 참석했던 것이 기본적인 개념을 잡는데 도움을 주었다. 감염성 병원체의 유전체학 관련 연구를 하는 생명과학자인 나에게는 제12장 역학(Epidemiology)가 특히 중요하다.


빅데이터와 데이터과학의 현재 문제점은 무엇일까? 28쪽에서 다음과 같은 내용을 발견할 수 있다.
  1. 기본적인 용어에 대한 정의가 없다.
  2. 오랫동안 이런 대상을 연구해온 학계와 산업체 연구소 연구자들이 이상하게 존경을 받지 못한다.
  3. 열풍이 너무 지나치다.
  4. 통계학자들은 이미 자신들이 '데이터의 과학'을 연구하거나 수행하고 있으며, 그것이 자신의 직업적 일상이라고 느낀다...어쩌면 통계학자들은 여러분이 정체성을 도둑맞았을 떄 드는 느낌을 갖고 있을 것이다.
  5. '자신을 과학이라고 불러야 하는 어떤 것도 과학이 아니다'라는 말이 있다. (과학이 아니라 기예craft에 가깝다는 뜻도 된다)
데이터과학은 현 시점에서 정의가 구체화되어 가는 매우 새로운 학문이다. 현재의 정의에 완벽하게 만족하는 사람은 아직 적겠지만. '데이터화'가 매우 중요한 활동의 하나임은 부인할 수 없다.
일단 대상을 데이터화하면, 우리는 그것의 사용 목적을 바꾸고 그 정보를 새로운 형식의 가치로 전환할 수 있다(32쪽).
여기에서 '우리'는 사람들이 어떤 것을 구매하게 함으로써 돈을 버는 모형 개발가와 사업가들이고, '가치'는 자동화를 통해서 향상된  효율성과 같은 것을 의미한다. 데이터 도사geek가 갖춘 매력적인 기술은 통계학·데이터 변환·시각화이다.

저자 중 하나인 캐시 오닐은 어딘가 모르게 낯이 익다. 아, 그렇다! '대량살상 수학무기'를 쓴 수학자이다(독후감). 알고리즘이니 데이터 모형이니 하는 것이 인간의 삶에서 더 많은 부분을 좌지우지하는 것을 경고하는 이 책은 미국에서 2016년에 출판되었다. 그러면 캐시 오닐은 '데이터 사이언스 입문'을 언제 출간하였을까? 이보다 앞선 2013년이었다. '대량살상 수학무기'라는 책을 이보나 나중에 냈다고 해서 캐시 오닐이 데이터 사이언스 자체에 회의적으로 바뀌었다고 볼 수는 없다. 칼이 사람을 찔렀다고 해서 주방에서 칼을 몰아낼 수는 없는 노릇 아니겠는가? 가치 중립적인 도구의 장단점을 제대로 파악하고 좋은 의도에서 이를 활용하려는 마음가짐을 갖고 있는 한 지나치게 우려를 할 필요는 없을 것이다.

2019년 상반기의 목표는 이 책을 통독하고 실습을 위해 필요한 수준으로 R 활용 능력을 향상시키는 것이다. 정확히 자리를 잡지 못하고 뇌세포 사이를 떠돌던 핵심 개념들도 제 자리를 잡게 될 것으로 믿는다

댓글 없음: