부제: INSDC 제38회 연례회의에서 확인한 NCBI의 최근 업데이트
역사와 전통을 자랑하는 International Nucleotide Sequence Database Collaboration(INSDC)에서도 미국의 영향력은 대단하다. 세 기관이 창구 역할을 하여 제각기 등록받은 데이터는 매일 동기화되어 어디를 통하든 동일한 데이터를 공유할 수 있지만, 실제로 미국의 연구활동을 통해 생산되고 미국 NCBI를 통해 등록되는 데이터의 분량이 압도적으로 높은 것으로 알려지고 있다. 예를 들어 DDBJ의 기여분은 1.98%에 불과하다.
특히 요즘 점점 더 인기가 높아지는 것은 sequencing raw data의 모음인 SRA일 것이다. 그 용량이 막대함은 누구나 쉽게 상상할 수 있다. 우리는 늘 수치(=실적)에 민감하지만, 압도적 우위를 차지하고 있는 곳에서는 하루에 얼마나 많은 데이터가 제출되는지에 대하여 일희일비할 필요가 없을 것이다. 다만 저장 공간을 확보하기 위하여 예산을 수립할 때에는 데이터 등록 현황을 꼼꼼하게 들여다볼 것이다.
NCBI의 SRA는 민간 클라우드에서 서비스되고 있다. ChatGPT에 물어보니 AWS와 GCP의 S3/GCS 버킷에 저장되고 있다고 한다. 여기에는 공개된 데이터와 dbGaP 등 controlled access를 통해 제공하는 것이 전부 포함된다.
그러면 SRA를 통해서 얼마나 많은 데이터가 이동하는 것일까? 작년 11월 워싱턴 DC에서 열린 AI-바이오과학 협력회의(AI-Bioscience Collaborative Summit, 관련 글 링크)에 참여한 일이 있다. 여기에서 NCBI의 책임자 Kim Pruitt가 발표했던 자료를 그대로 사진으로 찍었었다. 사진 촬영 금지라는 말은 없었으니... 지금 다시 살펴보니 슬라이드 이것이 NCBI 전체를 통한 데이터 흐름인지, 혹은 SRA에 국한된 것인지는 잘 기억이 나지 않는다.
하루에 등록되는 데이터의 분량은 수십 테라바이트, 처리되는 용량은 2 페타바이트, 다운로드는 수천 테라바이트, 월 단위 사용자는 2억명 이상. 참으로 부러운 현실이다. KOBIC에서는 수십 페타바이트를 수집하려고 해도 정말 어려운데 말이다. 지난주에 영국에서 열렸던 INSDC 제38차 연례미팅에서 이것과 거의 똑같은 슬라이드가 제시되었고(다녀온 출장자에 의해서 확인), 제목은 'Daily Data Flow at NCBI'였다. 사용자는 월 단위가 아니라 일 단위로 환산하여 4백만명 이상으로 고쳐져 있었다.
INSDC 연례회의에서 제공한 자료는 외부에 함부로 공개하지 말아 달라는데, 다음 슬라이드와 같이 부러움을 사는 '자랑질'에 해당하는 것은 공개해도 상관이 없을 것이다.
아... 부럽네. |
INSDC 연례회의 자료로부터 NCBI의 업데이트 사항을 정리해 보고자 한다.
'날것(raw) 데이터'인 SRA의 가치 못지 않게 GenBank의 genome도 대단히 귀중한 정보 자산이다(release note). RefSeq는 또 그렇지 아니한가. '여기에 다 있다!'라고 해도 과언이 아닐 수준으로 잘 정리된 유전자와 단백질 서열이 확보되어 있으니, 이를 대상으로 하여 만들어지는 BLAST database 또한 진화하고 있다. 2024년 8월부터 nucleotide search의 기본 DB가 된 core_nt는 기존의 nt와 달리 주요 유전자와 전사체 서열 중심으로 정리하여 축소된 형태이다(NCBI Insights 2024년 7월 18일). 따라서 더 빠르고, standalone search를 위해 다운로드하기 용이하다. 쉽게 말해서 유전자가 아닌 부분의 염기서열은 제외하였으며, EST/STS/GSS/WGS 등도 빠졌다. 2022년부터는 단백질 서열 데이터베이스로서 ClusteredNR이 쓰이고 있다(NCBI Insights 2022년 5월 2일). Mmseqs2를 이용한 클러스터링 기준은 ≥90% 서열 유사도 및 길이이다. 두 데이터베이스 모두 검색을 신속하게 수행하고, 더 정보가 많은 hit가 검색결과 상단에 뜰 수 있도록 노력한 것이다.
이외에도 Viral Annotation DefineR(VADR, 논문; standalone version은 GitHub에 있음)은 현재 뎅기 바이러스, 노로바이러스, SARS-CoV-2, Mpox(원숭이두창) 병원체의 유전체 주석화에 쓰이고 있으며, FCS(Foreign Contamination Screen, GitHub)는 prokaryotic genome에 대한 자동 점검 결과를 제공한다. Contamination이라고 판정하는 지표의 cutoff는 여기를 참조할 것.
Eukaryote genome annotation을 위한 도구인 EGAPx(NCBI Insights 2024년 11월 20일) 현재 GenBank 제출물을 통해 쓰이고 있으며, 향후 INSDC GFF3 작업이 진행되면 ENA나 DDBJ의 제출물에도 적용될 것이다.
INSDC는 생명과학 분야의 open access를 위한 첨병 역할을 해 오고 있다. 그러나 이들이 개별적으로 유지하는 모든 DB가 다 공유되는 것은 아니다. DDBJ의 Arita 박사가 2021년 발표한 논문(Open Access and Data Sharing of Nucleotide Sequence Data)에서 인용한 다음의 표를 보라. 신약개발을 꿈꾸는 기업은 open access가 커버하지 못하는 영역에 더욱 관심을 갖고 있는 것은 아닐까?
3개 기관의 협의체라고는 하나 데이터의 분량이라든가 이를 뒷받침하는 분석 역량은 미국으로 매우 심하게 기울어진 상태이다. 워낙 많은 양질의 서열 데이터가 한 곳에 모이고 있으니, 이로부터 레퍼런스에 해당하는 게놈(+주석화)과 유전자를 추출해 내고, 시각화 내지는 분석을 위한 수준 높은 도구를 계속 만들어 낼 수 있다. 다음과 같은 곳을 방문해 보라.
NIH Comparative Genomics Resource (CGR)
글로벌 협력을 꿈꾸는 INSDC에 우리나라는 무엇을 내세울 수 있으며, 또 어떤 기여를 할 수 있는가? 많은 고민이 필요하다.