2014년 6월 24일 화요일

바이오 데이터의 국내 등록 활성화를 위한 제언

이 글은 그동안 생각하던 바를 정리하여 2014년 6월 24일에 최초로 쓴 것이다. 앞으로 여러차례에 걸쳐서 수정될 것이다.

자료가 모이고 적절한 검색 시스템이 수반된다면 그 활용 가치가 한층 높아진다. 만약 유용한 분석 도구가 같이 존재한다면 금상첨화이다. 그러나 자료가 모여서 힘을 발휘하려면 일정 분량 이상으로 몸집이 커져야만 한다. 그런 의미에서 GenBank/DDBJ/EMBL은 정말 부러운 자원이 아닐 수 없다. GenBank에는 전 세계의 생명정보가 다 모인다. 바이오 분야의 연구자들은 누구나 무료로 이용하는 서비스이다. 미국 시민들의 세금으로 운영되는 것이 당연하지만, 미국 기준으로 국외의 사용자에게 비용을 물리지는 않는다. 이런 정책이 언제까지 유지될지는 아무도 모른다. 작년엔가 미국 연방정부의 shutdown 사태가 일어났을 때, NCBI 사이트가 잘 업데이트되지 않아서 약간의 불편을 겪었던 경험은 누구나 갖고 있을 것이다.

한국의 바이오 연구자들은 대부분 정부 연구비의 수혜를 받고 있다. 물론 이 돈은 국민이 부담하는 것이다. 국가연구개발과제로 산출된 성과물은 국가적 자산이므로 이를 기탁(실물) 혹은 등록(정보)하여 공공의 이익에 맞게 활용하는 것이 바람직하며, 이를 강제하는 제도 역시 마련되어 있다. 이것을 규정하는 현행 법률은 아마 두 개 이상은 될 것이다.

그럼에도 불구하고 연구 성과물(정보)의 자발적인 등록은 매우 부진한 것이 현실이다. 서열 정보를 수록하는 논문을 출간하려면 공공 DB에 이를 등록하여 Accession Number를 받아야만 한다. 따라서 연구자들은 누가 시키지 않아도 논문 출간을 위해 당연히 NCBI의 GenBank에 결과물을 등록한다. 그러나 한국의 실정법이 규정하는 연구성과물의 자발적인 등록은 사실상 거의 이루어지지 않고 있다. 여기에는 몇가지 이유가 있다. 이를 이행하지 않았을 때 제재조항이 없고, 또한 이를 전담하는 기관인 KOBIC에서 아직 편리한 등록 시스템을 서비스하고 있지 않기 때문이다(등록을 위한 창구가 전혀 없는 것은 아니다). 상황이 이러하니, 역으로 GenBank에서 한국인이 등록한 정보를 검색하여 현황을 정리하는 우스운 일이 벌어지고 있다.

심지어 이런 주장을 하는 사람도 있을 것이다. 한국의 국가연구개발비로 산출된 바이오 관련 정보물을 한데 모은다고 해서 무슨 의미가 있는가? 어차피 GenBank에 가면 다 있는 것 아닌가? 완전히 틀린 말이 아닐 수도 있다. 논문을 내기 위해 GenBank에 등록을 해야 하는데, 또다시 국내 특정 사이트에 등록을 하는 것은 너무나 성가시다고 할 사람도 많을 것이다. 우리나라 사람들은 유독 숫자에 강하다. 국가적 재난이 발생하면 가장 먼저 상황실이 생기고 피해 현황을 집계한다. 집계에 착오가 있거나, 통계치를 누가 물었을 때 재빨리 대답하지 못하면 무능한 일꾼으로 전락하기도 한다. 대관(對官)업무(상당히 어려운 용어로서 나도 최근에야 이런 말이 있다는 것을 알았다)를 해야 하는 입장이라면, 관계 부처(대개는 ‘甲’에 해당한다)에서 수치를 포함하는 현황 자료를 요청했을 때 기민하게 대처하지 못하면 얼마나 곤혹스런 일이 생기는지 아마도 잘 알 것이다. 더욱 중요한 본질은 다른 곳에 있는데, 영혼이 빠진 숫자에만 집착하는 일은 누구에게도 즐겁지 않은 일이다. 가령 whole-genome assembly와 뼈빠지는 finishing 작업을 통해 만들어진 어떤 생명체의 완성본 유전체 서열 하나와 4천만개의 NGS read로 이루어진 fastq file을 성과로서 합치면 40,000,0001건인가?

집계표 상의 숫자가 늘어나는 것보다 더욱 중요한 것은 이렇게 모인 정보가 얼마나 쓸모가 있느냐 하는 것이다. 데이터 저장소가 쓸모가 있는 곳이라 판단이 선다면, 누가 시키지 않아도 데이터를 등록하게 될 것이다. 요즘 일부 사업단에서는 자체 정보센터에 데이터를 등록해야만 성과로 인정하는 정책을 취하고 있다. 이것도 나름대로 현명한 방법이라 생각한다. 다만 모인 데이터가 생기있게 움직이고 활용될 수 있도록, 적절한 검색 및 활용 시스템이 수반되어야만 한다.

어차피 우리가 GenBank와 같이 포괄적이고 종합적인 데이터베이스를 만들기는 어렵다. 그래도 정부 연구비로 산출된 성과물을 국내에 모아서 서비스하는 것이 필요하다는 것을 인정한다면, 어떻게 해야 연구자들이 자발적으로 정보를 등록하고 유용하게 쓸모를 찾을지 궁리를 하지 않으면 안된다.

첫 번째는 유전체 자료를 연구관리기관에서 일종의 성과물로서 의무등록하게 만드는 것이다. 이에 대한 논의는 이미 수년 전부터 진행되고 있지만 아직 실현되고 있지 않다. 예를 들어 과제 신청 시점에 이 연구과제가 등록 가능한 바이오 데이터를 생산하는지의 여부를 확인시키고, 과제 평가 시점에 등록 여부를 체크하는 것이다. 연구재단의 과제 성과 입력 페이지를 들여다보면 논문이나 특허, 언론 홍보 등은 중요한 성과로 입력하게 되어 있지만 GenBank Accession이나 GEO 또는 SRA Accession을 입력하는 양식은 아직 본 적이 없다.

두 번째 아이디어는 특정 목적으로 생산된 정보를 해당 커뮤니티 안에서 일정 기간 동안만 폐쇄적으로 공개하는 서비스를 만드는 것이다. 제아무리 GenBank에 등록을 했어도 공개 요청을 하지 않으면 인류 사회에 아무런 도움이 되지 못한다. 그럴 바에야 차라리 국내에서 해당 프로젝트와 관련된 사이트에 정보를 등록하게 한 뒤 여기에 종사하거나 관심이 있는 회원들에게만 공개하여 활용하게 하는 것이다. 2년 정도를 유예기간으로 삼아서 이 기간이 경과하면 자동으로 오픈을 한다. 이와 동시에 사이트 운영자는 외부(예를 들어 GenBank)에 등록을 대행해 주고, 국내 오픈 동시에 국외에서도 오픈이 되게 하는 것이다.

세 번째 아이디어는 바이오 데이터 생산을 활발하게 하는 연구단과의 협조를 통해서 데이터를 일괄적으로 가져오는 것이다. 공개 정책은 연구단 혹은 사업단과 협의를 하면 되고, 검색 시스템이라든가 고급 분석 등의 기능을 유인책으로 사용하는 것이다.

여기서 현실적인 걸림돌이 되는 것이 바로 인체 유래 데이터이다. 정확히는 모르겠으나 인간 유전체 데이터는 생명윤리법과 개인정보보호법이 같이 적용되는 대상인 모양이다. 우리나라의 법률이 여간 까다로운 것이 아니라서 유전체 제공자가 연구용 데이터 활용에 대한 동의를 했다 하더라도 제3자가 이를 가져가서 재가공 후 공개하는 데에는 많은 제약이 따르는 것으로 알고 있다. 이에 대해서는 많은 고민과 공부가 필요할 것이다.

이외에도 다양한 아이디어가 나올 수 있다. 공부가 부족한 관계로 일단 이 정도에서 마무리를 하겠다. 마지막으로 연구성과물과 과제정보의 연계가 매우 중요한 것이기는 하지만 자발적인 등록을 막는 족쇄가 될지도 모른다는 이야기로 끝을 맺고자 한다. 최근 NCBI에 바이오프로젝트를 등록하러 가 보니 필수는 아니지만 입력해야 하는 항목이 점차 많아진 것을 느낄 수 있었다. 여기에는 연구비(grant) 정보가 포함되어 있다. 자, KOBIC에서 서열 정보를 등록하려면 관련 과제 정보를 같이 넣어야만 한다. 이 서열 정보를 생산하기 위해 어느 정부연구과제의 재료비 혹은 시험분석료를 사용했는가? 주판알을 두드리는 입장에서는 당연히 따지고 들 일이다. 하지만 우리의 연구 현실을 조금만 들추어보자. 나에게 ‘갑’이라는 흥미로운 생명종(혹은 샘플)이 있는데 이것과 관련된 연구비는 아직 없다. 그래서 A라는 과제에서 재료비를 조금 할애해서 시퀀싱을 했다고 치자. 어차피 요즘의 NGS는 그렇게 돈이 많이 들지 않는다. 당장은 분석할 인력이 없어서 데이터를 묵혀두고 있다가 1년쯤 뒤에 ‘갑’과 관련한 연구비 수주(B과제)에 성공하여 인력을 채용하고 데이터 분석을 실시했다고 치자. 그러면 ‘갑’에서 생산된 데이터(문제를 복잡하게 만들기 위하여 raw data와 분석을 마친 가공 데이터 두 종류가 있다고 가정하자)를 성과 등록 사이트에 입력하려면 과제 정보를 무엇이라고 하여야 하나? 논문을 쓸 때 과제 사사는 어떻게 할 것인가?

법칙대로만 따른다면 내가 ‘갑’ 샘플을 A 과제에서 시퀀싱한 것은 옳지 않다. 어쩌면 앞으로는 넓은 의미의 연구부정행위에 들어가게 될지도 모르는 일이다. 그러나 이는 어떻게 보면 선행연구결과를 요구하는 연구신청 프로세스에서는 완전히 금지할 수도 없는 일이다. 현실적으로 예비데이터 없이 연구비 신청이 가능한가? 지나치지 않은 범위에서 현재 수행중이 과제와 완벽하게 관계가 있지는 않더라도 조금은 미래를 위한 예비 데이터 생산을 하지 아니할 수는 없는 것이 현실이다. 다시 말하자면 잠시 연구비를 가지고 딴 짓을 하는 것을 전혀 허용하지 않는다면 새로운 연구를 앞으로도 영영 할 수 없다는 뜻이 된다.

따라서 나는 다음과 같이 제안한다. A 부처의 B 과제를 관리하는 사이트에서 바이오데이터 등록을 일종의 성과물로서 등록한다면 당연히 B 과제를 사사할 것이므로 문제가 없다. 그러나 과제관리기관과는 관계없이 바이오데이터를 등록하는 서비스를 제3의 기관에서 만든 경우(예를 들어 KOBIC), 이 데이터가 어느 과제에서 생산되었는지를 필수적으로 입력하지는 않도록 조금의 여유를 주자는 것이다. 가장 바람직한 것은 과제 관리 기관에서 연차 평가시 성과 입력을 하는 시스템에 바이오데이터를 반드시 넣도록 하는 장치가 자리를 잡도록 노력하는 것이다.



댓글 없음: