2024년 3월 6일 수요일

NCBI의 Genome & Assembly는 5월을 끝으로 사라지며, Datasets 서비스로 재편된다

자료 정리를 위해 예전에 NCBI에 등록했던 미생물 유전체 정보를 둘러보았다. 언제 등록을 했는지 기억도 하기 어려운 자료들이 점점 많아진다. 내 손으로 등록했던 것 중에 최초(Hahella chejuensis KCTC 2396; GenBank accession CP000155.1 또는 assembly accession GCA_000012985.1; 등록일은 2005년 10월 18일), 그리고 특별히 사연이 많았던 것 외에는 언제 등록을 했는지 기억하기 어려운 것도 점점 많아진다. Submission 단계에서 정보를 채워 넣다가 중단한 것도 여럿 존재한다.

Bacterial genome sequence 하나로 논문 하나를 쓰던 시절은 이미 오래전에 사라졌다. Announcement라는 형태의 출판물도 있지만 그것은 예외로 하고... 사실 나도 이런 형태의 출판물을 많이 만들어 왔었다.

논문화까지 성사되지 못한 유전체 정보라서 가치가 없는 것은 절대로 아니다. 누군가는 이것을 왕창 긁어 모아서 새로운 발견을 하는데 유용하게 쓰기도 하니까 말이다.

NCBI Assembly 웹페이지에서 이 서비스가 조만간 종료된다는 공지문을 발견하였다.



Learn more를 클릭하면 다음과 같은 NCBI Insights의 공지문으로 연결된다.

NCBI Datasets: Easily Access and Download Sequence Data and Metadata - Effective May 2024, NCBI Datasets will replace legacy Genome and Assembly web resources

왜 이렇게 개편하였는가? 유전체, organism, 유전자 정보를 통합하여 제공하고, 대용량 데이터셋을 가져가기 용이하게 하며, 데이터와 메타데이터를 한꺼번에 취급하고, 유전체 데이터셋에 대한 단일한 진입구를 제공하기 위함이라고 하였다.

하나의 생물종에 대해서 reference 유전체 서열 말고는 참조할 것이 별로 없던 시절에는 NCBI의 Assembly 웹페이지를 열람하거나, 심지어 GenBank 파일의 헤더 영역을 직접 열어서 누가 언제 이 정보를 만들어서 올렸는지 확인하는 것이 가능하였다. 그러나 지금은 미생물 단일 종에 대해서 많게는 천 개가 넘는 균주의 유전체가 등록되기도 하고(특히 병원체의 경우), 심지어 동일한 균주라 해도 이를 보유하고 있는 개별 연구자가 별도로 유전체 해독을 하여 등록하기도 한다. NCBI의 정책 변경은 점점 많아지는 데이터를 관리하고 제공하기 위한 오랜 고민과 노력의 필연적인 결과일 것이다.

NCBI Datasets을 처음 사용한 것은 아마 SARS-CoV-2의 유전체 자료를 한꺼번에 가져올 때였던 것으로 기억한다. 처음에는 약간 어색하였지만 이내 익숙해졌다. 당연히 명령행 환경에서 Entrez Direct(EDirect)를 이용하여 batch process로 자료를 가져와야 한다는 고정관념을 깬 계기가 되기도 하였다.

지금까지 알려진 모든 생명체의 유전체 정보는 이처럼 NCBI가 블랙홀처럼 빨아들이고 있다.  중국 등지에서 더 많은 정보를 생산하고 보유한다는 이야기는 많이 들려오지만 정보의 개방성 측면에서는 NCBI를 따를 수가 없다. 한국(KOBIC)은 무엇으로 경쟁력을 갖추어야 할지 고민스럽다. 이 광대한 정보의 호수(바다?)에 돌 몇 개를 던져서 수면이 단 1 cm라도 올라가는 일이 생길 수 있을지? 아니, 단 1 mm라도...

댓글 없음: