빅데이터와 데이터과학의 현재 문제점은 무엇일까? 28쪽에서 다음과 같은 내용을 발견할 수 있다.
- 기본적인 용어에 대한 정의가 없다.
- 오랫동안 이런 대상을 연구해온 학계와 산업체 연구소 연구자들이 이상하게 존경을 받지 못한다.
- 열풍이 너무 지나치다.
- 통계학자들은 이미 자신들이 '데이터의 과학'을 연구하거나 수행하고 있으며, 그것이 자신의 직업적 일상이라고 느낀다...어쩌면 통계학자들은 여러분이 정체성을 도둑맞았을 떄 드는 느낌을 갖고 있을 것이다.
- '자신을 과학이라고 불러야 하는 어떤 것도 과학이 아니다'라는 말이 있다. (과학이 아니라 기예craft에 가깝다는 뜻도 된다)
일단 대상을 데이터화하면, 우리는 그것의 사용 목적을 바꾸고 그 정보를 새로운 형식의 가치로 전환할 수 있다(32쪽).여기에서 '우리'는 사람들이 어떤 것을 구매하게 함으로써 돈을 버는 모형 개발가와 사업가들이고, '가치'는 자동화를 통해서 향상된 효율성과 같은 것을 의미한다. 데이터 도사geek가 갖춘 매력적인 기술은 통계학·데이터 변환·시각화이다.
저자 중 하나인 캐시 오닐은 어딘가 모르게 낯이 익다. 아, 그렇다! '대량살상 수학무기'를 쓴 수학자이다(독후감). 알고리즘이니 데이터 모형이니 하는 것이 인간의 삶에서 더 많은 부분을 좌지우지하는 것을 경고하는 이 책은 미국에서 2016년에 출판되었다. 그러면 캐시 오닐은 '데이터 사이언스 입문'을 언제 출간하였을까? 이보다 앞선 2013년이었다. '대량살상 수학무기'라는 책을 이보나 나중에 냈다고 해서 캐시 오닐이 데이터 사이언스 자체에 회의적으로 바뀌었다고 볼 수는 없다. 칼이 사람을 찔렀다고 해서 주방에서 칼을 몰아낼 수는 없는 노릇 아니겠는가? 가치 중립적인 도구의 장단점을 제대로 파악하고 좋은 의도에서 이를 활용하려는 마음가짐을 갖고 있는 한 지나치게 우려를 할 필요는 없을 것이다.
2019년 상반기의 목표는 이 책을 통독하고 실습을 위해 필요한 수준으로 R 활용 능력을 향상시키는 것이다. 정확히 자리를 잡지 못하고 뇌세포 사이를 떠돌던 핵심 개념들도 제 자리를 잡게 될 것으로 믿는다
댓글 없음:
댓글 쓰기