2015년 5월 8일 금요일

NCBI SRA(sequence read archive)에 NGS raw data를 밀어넣으며

NGS raw data를 SRA에 등록하여 공개해 놓으면, 이를 다양한 프로그램과 파라미터를 적용하여 다각적으로 분석할 수 있다. 논문 출판과 함께 깨끗하게 가공된 최종 데이터만을 올리는 것이 아니라, 해당 분야에 관심이 있는 사람이라면 누구나 원본 데이터를 가지고 새로운 시도를 할 수 있는 것이다. NCBI에서 실제로 어떤 규모의 하드웨어 인프라를 갖추고 전세계에서 업로드하는 대용량 시퀀스 데이터를 감당하는지는 잘 모르겠지만, 아직까지는 비용을 요구하지 않으니 매우 고마운 일이다.

처음에는 BioSamples를 생성하고 Experiment, Run을 추가하는 것이 조금 어려웠었다. 오늘 오랜만에 데이터를 업로드하였다. WGS submission에서도 마찬가지라고 느끼고 있는 것이지만, 시간이 지날수록 사용자 인터페이스가 좀 더 심플해지고 있다. 오늘은 네트워크 속도도 별로 나쁘지 않아서 데이터를 올리는데 불편함이 없었다.

단, 새로운 submission을 생성하고 저장을 누르니 'internal error'라는 메시지가 나왔다. 그래서 몇차례 submission을 생성하고 뒤로 돌아가니 똑같은 것이 여러개 생기고 말았다. 이 레벨에서는 지울 수가 없어서 그냥 두었다.

자, 여기서 한가지 변명을 해야 되겠다. 국가연구개발사업에서 생성된 성과물은 전부 등록을 해야 한다. 유전체 시퀀싱 자료와 같은 생명정보는 biodata.kr에 등록을 해야 한다. 그런데 왜 여기에는 등록을 안하고 NCBI에 등록을 하고 있는가?

전에도 이에 대한 문제를 블로그에 올린 적이 있다. 사용자 인터페이스의 편의성은 NCBI가 더 심플하고 능률적이다. 이것은 얼마든지 개선이 가능하다. 가장 큰 문제는 생명정보를 생성에 관여한 연구과제정보를 어떻게 채워야 하는 것인가에 달려있다. 한국 정부 예산, 즉 국민의 세금으로 산출한 연구성과물을 등록하여 공공성을 확보하고 널리 활용하게 하자는 취지에는 공감하는 바이다.

그러나 도대체 이 성과가 어느 과제에서 나온 것인지를 결정하려면 이게 결코 쉽지가 않다. 예를 들어 10년간 여러 과제를 통해서 열심히 연구를 하고 개량을 해 온 유용 균주가 있다고 하자. 그 균주의 경제적 가치가 일단 1억원이라고 하자. 그런데 200만원을 들여서 A과제로 유전체를 읽었다. 그러면 유전체 정보라는 성과물이 있게 만든 과제는 A인가? 아니면 균10년 동안 균주의 연구를 하게 만든 여러개의 과제인가? 현행 시스템에서는 과제 정보를 하나만 넣게 되어 있다. 이러한 현실을 반영하여 만약 복수의 과제를 연결하게 한다면, 이번에는 각 과제의 비중을 결정하는 문제가 따른다.

평가는 매우 중요한 일이지만, 행동을 심하게 제약하는 문제를 낳는다. 연구자는 현재 진행 중인 과제, 다시 말해서 평가를 앞둔 과제를 사사하고 싶은 경향을 갖고 있다. 당연히 유전체 정보 생성에 기여한 과제를 매우 공정하게 할당한다는 것은 쉽지 않다.

그러니 이런 고민을 할 필요가 없는 NCBI에 등록을 해 버리는 것이다. 최소한 나의 경우는 그러하다. 차라리 이렇게 등록을 한 다음에 연구성과물 관리 전담기관에 Accession을 알리는 것이 더 능률적일지도 모른다.

(앞으로 NCBI가 데이터 등록에 대한 과금을 시작할지도 모른다. 이에 대한 대비는 분명히 필요하다.)

댓글 없음: