2022년 5월 10일 화요일

데이터를 쓸모있게 만드는 메타데이터

오늘 출범한 윤석열 정부는 대통령직인수위원회를 통해 과학기술교육분야의 밑그림을 그리면서 <바이오 대전환 대응을 위한 디지털 바이오 육성>을 제안한바 있다. 

尹 정부 "BT 데이터 스테이션 구축···R&D 데이터 의무 공개" 대덕넷 5월 1일자 기사

실천 과제는 다음의 4가지이다.

  • 부처적인 바이오 데이터의 축적‧공유‧활용 플랫폼 구축 및 고도화(혹시 '범 부처적'의 오기?)
  • AI, 빅데이터 등을 접목하여 연구효율 및 생산성 제고
  • 디지털 바이오 유망기술 집중 육성으로 글로벌 경쟁력 확보 및 신시장 선점
  • 정부와 민간이 협력할 수 있는 생태계 조성 및 연구 기반 확충

  • 110대 국정과제(인수위 링크 - 오늘 24시 웹사이트 운영 종료 예정)에 이러한 세부사항이 어떻게 녹아들어가 있는지 살펴보자. 과학기술과 관련된 꼭지를 찾기가 쉽지는 않다. 

    인수위 웹사이트가 운영 종료를 곧 앞두고 있어서 국정과제 이미지 파일을 내려받아 게시하였다. 혹시 저작권에 위배되는 것은 아닌지...
    나는 바이오 데이터라는 낱말을 별로 좋아하지 않는다. 하나의 영단어로 표현되는 biodata는 개인의 생애와 관련된 기록, 즉 이력서를 채울 생애 관련 자료(biographical data)이다. 우리가 '바이오 데이터'라고 쓰는 것은 biodata가 아니라 생명공학 및 의료분야에서 생산되는 연구 자료를 일컫는 신조어에 가깝다. 따라서 원래 있었던 낱말인 biodata와 구별하기 위해 bio data/bio-data라고 띄어쓰는 것이 중요할 것이다. 아주 정확히 쓰려면 바이오 연구 데이터라고 하는 것이 옳다. 그러나 '연구'라 함은 데이터의 용도를 설명하기 위함이다. 상업적인 의료 서비스를 위해 만든 각종 측정 데이터(유전체 데이터도 그중의 한가지)도 연구 목적으로 쓴다면 (바이오) 연구 데이터가 된다. 데이터의 성질 자체는 변하지 않는다.

    디지털 바이오는 더욱 어려운 개념이다. 아직 그 누구도 이에 대해서 명확하게 정의하기 어려울 것이다. 그런데 관련 정부부처에서 마련한 자료에서는 이미 디지털 바이오의 개념을 정의해 놓았으며, 지난 5월 4일 내가 근무하는 한국생명공학연구원에서는 유튜브를 통해서 나름대로 쉽게 디지털 바이오를 설명한 동영상을 공개해 놓았으니 일단 나부터 시청을 한 뒤 다시 돌아와서 글을 쓰도록 하겠다.


    정부의 연구비가 투입되어 생산된 '공공' 데이터는 최대한 공유하여 널리 쓰이게 하는 것이 인류의 복지와 산업 발전을 위해 필요하다는 것은 누구나 인정할 것이다. 그러나 실제 현장에서는 많은 어려움이 있다. 
    • 연구하고 논문 쓰기에도 바빠 죽겠는데 왜 데이터 공유를 해야 한단 말인가?
    • 이 데이터가 정말 쓸만한 양질의 데이터인가?
    • Raw data/중간 단계 데이터/논문에 실릴 정도로 정제 및 가공을 거쳐 과학적 의미가 부여된 데이터 중 어느 것을 등록하란 말인가?
    • 데이터를 어디에 어떻게 등록해야 하는가? 
    • 왜 우리의 세금을 들여 생산한 연구 데이터를 외국(예: NCBI)에 등록한단 말인가?
    • K-바이오 데이터 저장소에는 외국인 연구자도 접속이 가능한가? 우리 데이터를 가져가지 못하도록 담벼락을 세워야 하지 않는가?
    • 내가 힘들여 제안서를 써서 정부 연구비를 받았으니 이 데이터는 내 것이 아닌가?(세금은 누가 내는가?)
    • 논문을 쓰는 중이라서 데이터의 공개를 일정 기간 동안은 미루고 싶다. 한 10년 정도?
    • 유전체 데이터는 사실상 보호해야 할 개인 정보 아닌가?
    • 연구자가 정부 연구비를 이용하여 얻은 결과로 사업화를 하고 금전적인 이득을 취한다면 이는 과연 공정한 것인가?
    • 관련 과제를 뭐라고 해야 되지? 이것은 생각보다 까다로운 문제이다. 자료 생산과 자료 분석(인건비) 비용을 댄 과제가 서로 다르면 어떻게 하나?
    연구라고 하는 순수한 동기에서 얻어진 산출물에 여러가지 이해 관계와 명분이 얽히면서 문제는 상당히 복잡해진다. 연구 '성과물'과 '결과물'을 명확하게 구분하지 못하는 우리의 태도 역시 데이터 공유를 어렵게 만든다. 이야기를 더욱 어렵게 만들어 보자. 실적과 결과 및 성과라는 세 낱말은 무엇이 다른가? 

    동료 평가를 거친 학술논문으로 출판될 수준의 것이 연구 성과라면, 요즘 화두가 되고 있는 빅데이터적인 입장에서는 성과까지 이르는 여정에서 발생한 모든 결과물(그것이 비록 실패한 연구이거나 아직 의미를 부여하지 못하는 단계, 혹은 너무나 방대한 양... 그 무엇이든 좋다)을 다 모으고 싶어한다.

    2016년에 유전체를 해독했던 어떤 박테리아와 관련한 짧은 논문을 지난 3월부터 써서 심사 과정을 거치고 있다. 논문에서 요구하는 Materials & Methods 정보는 예전보다 더욱 많아졌다. 출판 완료된 논문이란, 그 당시에 사용할 수 있는 분석 기술의 스냅샷을 담고 있을 뿐이다. 그러니 논문의 독자가 나중에 그 과정을 재현함은 물론, 더욱 발전된 분석 기술을 적용할 수 있도록 데이터 및 그와 관련한 더욱 많은 자료를 요구하는 것이다. 심하게는 어떤 프로그램을 돌렸을 때 출력되는 로그 파일까지도 제출하라고 요구할 기세다.

    천랩, 마크로젠, 테라젠 이텍스, NICEM 등 여러 시퀀싱 서비스 기관으로부터 분석 결과물을 받을 당시에 같이 전달된 리포트를 검토해 보았지만, 현재 기준의 논문 리뷰어가 요구하는 실험 방법까지 상세하게 제공하지를 않았다. 만약 반년쯤 전에 받은 시퀀싱 결과물이라면, 담당자에게 전화를 걸어서 '라이브러리 프렙은 어떻게 했나요?', 또는 '사이즈 선별은 했었나요?' 하고 물어 볼 수나 있을 것이다. 그러나 몇년이 지났다고 하면 이야기가 달라진다. 기록이 남아있지 않거나, 이직이 잦은 업계 특성 상 당시 사정을 알지 못하는 직원을 붙들고 이야기를 해야 할 수도 있다. 몇년 동안 논문화 작업을 하지 않은(아니, 하지 못한) 우리 자신을 탓하는 것이 옳을지도 모른다.

    시퀀싱 서비스 업체에 다시 전화를 걸어서 묻고 싶은 '자료에 대한 자료', 즉 이런 것이 메타 데이터의 사례에 속하게 된다. KOBIC(국가생명연구자원정보센터)에서도 바이오 데이터 등록 양식을 만들면서 주변 정보를 어디까지 포함해여 어떻게 체계회해야 하는지 무척 오랫동안 고심한 것으로 알고 있다. 수년 동안의 노력 끝에 만들어져 현재 유통되는 등록양식 설명 책자는 이미 엄지손가락 두께에 이르는데, 이렇게 되면 들추어보기가 어렵게 된다. 데이터 등록양식은 되도록 단순해야 한다. 해마다 점점 두꺼워지는 법전처럼 되어서는 안 된다는 뜻이다.

    데이터 공유라는 대의에 모두가 공감을 하는 것을 전제로 하되('그걸 왜 해야 하는데?'라는 질문은 하지 않기로 하자), 데이터가 생산된 시점에서 너무 시간이 경과한 뒤에 등록해서는 안 된다. 요즘은 데이터 관리 계획(data management plan, DMP)라는 것을 연구과제 신청 단계에서 수립하게 만들기는 한다. 이는 책임을 미루는 좋은 방법이기도 하다. 신규 과제에 대해서만 실행하게 만들면 되니까. 논문 하나를 참조해 보자(데이터 관리 계획의 국내 현황 및 과제).

    연구 데이터 공유의 당위성에 대한 법적·윤리적 근거는 정말 확실한가? 연구 데이터가 갖는 잠재적인 경제적 가치에만 너무 경도된 것은 아닌가? '패권'이니 '선점'이니 '미래 먹거리'니 하는 실용적 가치에만 신경을 쓰다가 정작 중요한 것을 놓치는 일이 생기지는 않을까?

    자료 못지않게 중요한 것이 메타데이터이다. 부실한 메타데이터는 본 데이터의 등록 및 활용을 막는 걸림돌이 된다. 더욱 나쁜 것은, 본 데이터의 등록 또는 활용을 하기 꺼려하는 사람들에게 부실한 메타데이터는 좋은 핑곗거리가 된다.

    댓글 없음: