곧 사라질 NCBI PopSet은 무슨 목적의 데이터베이스였을까

2025년 1월에 서비스가 종료되는 NCBI의 데이터베이스(PopSet)에 관해서 공들여 공부할 필요성은 그다지 높지 않을 것이다. 그러나 게놈 고물상의 영업 활동을 위해서는 그 흔적이 사라지기 전에 '기억'을 남겨놓는 것이 중요하다고 생각한다. 그동안 내가 수집한 '고물'은 K-BDS에 전부 등록해 놓았다(링크). 오늘의 글은 스무 번째 고물을 등록하기 위하 자료를 준비하다가 알게 된 것을 기록하고자 함이다.

NCBI's PopSet Database to Retire Effective January 2025 - NCBI Insights 2024년 8월 14일

위에 소개한 글에는 PopSet 서비스 종료에 대한 불만을 털어놓는 댓글이 있었다. 소수 사용자의 의견에도 관심을 가져야 한다.

PopSet이란 무엇인가? https://www.ncbi.nlm.nih.gov/popset이라는 URL도 곧 사라질 것이다. 여기를 방문해 보면 "The PopSet database is a collection of related DNA sequences derived from population, phylogenetic, mutation and ecosystem studies that have been submitted to GenBank"라고 하였다. PopSet DB 서비스가 종료됨으로써 관련이 있는 DNA 서열을 한데 모아서 제출하거나 또는 한꺼번에 다운로드할 수 있는 편의성은 사라지고, 앞으로는 개별적인 서열로서 검색하거나 접근해야 한다고 공지하였다. 관련성이 있는 서열을 앞으로 하나의 BioProject로 묶어서 제출하는 것이 가능할까? 그건 잘 모르겠다.

하필이면 지금 이 시점에 2025년 1월 종료하게 될 PopSet을 알게 되다니? 'Bacterium NLAE-zl-H470'이라는 어떤 분리 균주의 정체를 추적하다가 PopSet이라는 것이 있다는 것을 오늘 처음 알게 되었다. 최근 게놈 고물상 활동의 일환으로서 2013-2014년도에 일루미나로 시퀀싱해 두었던 72개 미생물 균주의 raw data를 다시 점검하고 있었다. 대부분의 경우 KCTC 번호가 붙은 미생물 자원이라서 원한다면 얼마든지 분양 신청이 가능하다. 물론 약간의 사연 때문에 현재 분양이 불가능한 것도 있다.

10년이 넘게 지나면서 진작에 논문을 쓰거나 최소한 유전체 정보를 등록하여 공개라도 해 두었으면 정말 좋았을 것이다. 균주를 제공한 사람이나 시퀀싱 결과물을 들고 있는 나나 다들 바빴다고 해 두자. 72개 균주는 대부분 표준 균주였다. 따라서 이에 대한 시퀀싱 및 분석에 대한 필요성은 늘 제기되었었고, 우리가 시퀀싱한 것과는 별개로 이미 외국에서 해독을 완료하여 공개를 해 버린 것이 많다. 이러한 시점에서 굳이 노동력을 들여서 10여년 전 자료를 다시 건드리는 것이 옳은지 참 고민이 많았다. 그래도 필요한 일이라고 생각한다.

10년 전에는 k-mer analysis를 통해서 오염 여부를 정성적으로 점검하고 나서 CLC Genomics Workbench로 contig를 조립하는 정도로 그쳤다. 그러나 지금은 어떠한가? Whole-genome shotgun read로부터 phyloFlash를 이용하여 16S rRNA를 확인함은 물론이요, ZGA pipeline을 이용하여 조립 결과에 대한 QC도 실시해 나가고 있다. 다음은 ZGA의 작업 로그이다. 얼마나 친절한가? 이렇게 얻은 contig sequence를 내 리눅스 워크스테이션에 설치된 GTDB-Tk에 투입하면 species 수준의 동정 정보를 얻게 된다.

2025-01-08 12:43:03,662 - INFO - Checking input files.
2025-01-08 12:43:03,662 - INFO - Read quality control started
2025-01-08 12:43:44,026 - INFO - Reads processing started
2025-01-08 12:43:44,026 - INFO - Trimming and filtering paired end reads
2025-01-08 12:43:47,663 - INFO - Merging paired-end reads.
2025-01-08 12:44:06,678 - INFO - Read processing finished
2025-01-08 12:44:06,678 - INFO - Estimating genome size with mash using: /data/project/52_KCTC_72_microbial_genomes_2014_Apr/01_Illumina_2014-04-16/05_zga_assembly/zga_3590T/reads/lib1.u1.fq.gz, /data/project/52_KCTC_72_microbial_genomes_2014_Apr/01_Illumina_2014-04-16/05_zga_assembly/zga_3590T/reads/lib1.u2.fq.gz, /data/project/52_KCTC_72_microbial_genomes_2014_Apr/01_Illumina_2014-04-16/05_zga_assembly/zga_3590T/reads/lib1.merged.fq.gz
2025-01-08 12:44:42,683 - INFO - Estimated genome size is 2754800 bp at coverage 464.905.
2025-01-08 12:44:42,683 - INFO - Assembling started
2025-01-08 13:09:04,211 - INFO - Assembling finished
2025-01-08 13:09:04,228 - INFO - Assembly length: 2603790
2025-01-08 13:09:04,228 - INFO - Contig count: 53
2025-01-08 13:09:04,228 - INFO - N50: 235623
2025-01-08 13:09:04,228 - INFO - Checking genome quality
2025-01-08 13:09:06,804 - INFO - Bacteria marker set will be used for CheckM
2025-01-08 13:09:21,945 - INFO - Genome completeness: 98.28%
2025-01-08 13:09:21,945 - INFO - Genome contamination: 0.0%
2025-01-08 13:09:21,945 - INFO - Genome heterogeneity: 0.0%
2025-01-08 13:09:21,945 - INFO - Genome annotation started
2025-01-08 13:09:22,027 - INFO - No locus tag provided. Generating it as MD5 hash of genome
2025-01-08 13:09:22,033 - INFO - Locus tag generated: FOXIOS
2025-01-08 13:09:43,983 - INFO - Workflow finished!
2025-01-08 13:09:44,064 - INFO - ZGA ver. 0.0.9post2
2025-01-08 13:09:44,064 - INFO - Full log location: /data/project/52_KCTC_72_microbial_genomes_2014_Apr/01_Illumina_2014-04-16/05_zga_assembly/zga_3791T/zga.log

요즘 같아서는 long read sequencing technology를 이용하여 너무나 쉽게 circular chromosome을 얻어 버리지만, 많은 경우에 시퀀싱 서비스 업체를 통해서 최종 결과물만 얻게 되니 그 뒤에 숨어있는 수많은 과학과 중간 과정에서 검토해 봐야 할 단계가 생략되고 만다. 즉 연구자는 가격과 품질만을 따지는 단순한 '소비자'가 되고 만 것이다. 그 간극을 메꾸고자 함이 바로 게놈 고물상의 역할일 것이다. 왜냐하면 우리는 소비자이기 이전에 연구자가 되어야 하기 때문이다.

시퀀싱 대상 중 몇 개의 균주는 KCTC에 근무하던 연구자가 따로 입수하여 사용하던 것이다. 이들은 동정이나 특성 분석을 거쳐 공식적으로 KCTC 번호를 부여받아 관리되지는 못하였고, 이를 관리하던 연구자 중에는 이미 퇴직을 한 분도 있다. Genus 수준까지 동정이 되어 있었다면 그나마 다행인데, 어느 샘플은 Bacterium NLAE-zl-H470라고만 되어 있었다.

무턱대고 구글에 이 명칭을 넣어 보았다. 2019년 PLoS One에 실린 논문 'Baseline human gut microbiota profile in healthy people and standard reporting template의 supporting information' 중 하나인 S6 Table <Blacklist of Filtered-nt>에, 그리고 2019년에 발간된 대만의 어느 석사학위 논문('Development of a culturomic system and isolation of a bacterial strain associated with low trimethylamine (TMA) producing phenotype', 링크)에 이 이름이 보였다. 그런데 정말 흥미로운 것은 NCBI Taxonomy에 이것이 올라와 있는 것이었다.

bacterium NLAE-zl-H470 (NCBI TaxID: 1201806)

제대로 동정도 되지 않았는데 species rank로 버젓이 올라 있다는 것이 너무나 신기했다. 연결된 nucleotide 자료(JX006681.1)로 이동해 보니 미국의 C.N. Ziemer라는 사람이 2012년에 등록한 'Bacterium NLAE-zl-H470 16S ribosomal RNA gene, partial sequence'였다. 타이틀에 따르면 이 균주는 인체 분변에 cellulose 또는 xylan/pectin을 넣어서 8주간 enrichment culture를 거친 뒤 분리하였다고 한다. BRENDA의 TaxTree Explorer에서도 bacterium NLAE-zl-H470이 보인다(링크). 아마도 NCBI Taxonomy의 정보를 그대로 가져다가 보여주는 것으로 여겨진다. Flat file의 KEYWORD는 비어있다.

Taxonomy 웹사이트 오른편에는 Nucleotide, PopSet, 그리고 Taxonomy라는 Entrez record가 보였다. PopSet이라? NCBI Taxonomy Browser에 수시로 들락거리면서 PopSet이라고 표시된 링크에는 관심을 가지지 않았었다. 클릭을 해 보았다. PopSet이 어떤 성격의 데이터베이스인지 쉽게 이해할 수 있었다.

PopSet이 서비스를 종료한다 하더라도 이를 구성하는 각 염기서열은 이미 공지하였듯 고유의 accession number를 통해 접근이 가능하다. 그러나 어떤 연구자가 무슨 목적으로 한 세트의 염기서열을 생산했는지 그 배경이나 맥락을 이해하기 어려울 것이다. 그런 차원에서는 K-BDS의 바이오프로젝트가 더욱 적합할 수 있다.

2010년에 GenBank의 하위 DB인 GSS에 Paenibacillus polymyxa의 표준균주인 ATCC 842의 유전체 염기서열을 등록한 일이 있다. Accession number는 DU532978부터 DU534724까지의 1747개의 서열 단편이었다. 클릭해 보면 'KEYWORD GSS.'라는 라인이 보인다. GSS는 PopGen처럼 하나의 단위로 데이터를 묶어서 보여주지는 않는다.

고물을 뒤지다가 새로운 고물을 찾게 되고, 또 고물의 먼지를 털고 얼마나 쓸만한지 알아보는 과정에서 새로운 정보와 역사를 알게 되었다. '온고지신'이란 바로 이럴 때 쓰는 말일 것이다.

정해영의 블로그 - JEONG Haeyoung's blog

2025년 1월 8일 수요일

곧 사라질 NCBI PopSet은 무슨 목적의 데이터베이스였을까

댓글 없음:

즐겨 찾는 곳

프로필