2018년 6월 14일 목요일

ANI 분석에 의한 잘못된 종명 바로잡기 - NCBI

NCBI에 유전체 서열을 등록할 때에는 여러 가지의 quality control process가 진행된다. Contig의 수가 너무 많거나 그 길이가 지나치게 짧지는 않은가? 200 bp 미만의 contig는 받아들여지지 않는다. Vector나 adaptor, 혹은 일루미나 시퀀싱 장비를 구동할 때 control로 들어가는 phiX174 서열은 섞여있지 않은가? Species 명칭은 올바른가?

이런 사전 점검 프로세스를 거쳤다 해도 균주의 species 명칭을 잘못 붙인 것에 대한 점검은 오로지 제출자의 몫이었다. 천랩의 EzBioCloud에서는 다른 어느 유전체 서열 데이터베이스보다도 빠르게 이에 대한 대책을 내놓은 상태였다. 즉 특정 종의 type strain에 대한 유전체 서열이 이미 공개된 상태라면, 등록된 다른 미생물 유전체의 서열을 이것과 대조하여 ANI(average nucleotide identity)에 기반한 종 동정 정보를 제공하는 것이다. 사용자 Bacillus amyloliquefaciens라는 이름을 붙여서 유전체 서열을 등록했고 NCBI에서도 이 정보를 충실히 따르고 있지만 EzBioCloud의 genome 항목에서는 자체 동정 결과에 의하여 Bacillus velezensis라고 명명했음을 알려주는 것이다.

시퀀싱이 된 type strain이 점차 증가하면서 NCBI에서도 'submitted organism name'이 맞는지를 전면적으로 재검토하여 수정을 하고 있는 것으로 보인다. 오늘 새벽에 NCBI에서 받은 이메일에는 과거에 내가 Bacillus endophyticus의 스트레인이라고 등록한 유전자를 Bacillus filamentosus로 변경할 예정이니 이것이 옳지 않다는 합리적인 증거를 2주 이내에 제시하지 않으면 WGS는 물론 BioSample과 BioProject도 업데이트가 될 것이라 하였다.

실제로 이런 과정이 적용된 WGS 엔트리 하나를 살펴보자. 이는 안내 메일에 소개된 것이다.

https://www.ncbi.nlm.nih.gov/nuccore/JWAI00000000.1/


늘 접하던 ###Genome-Assembly-Data### 블록 위에 ###Taxonomic-Updated-Statistics###라는 블록이 새로 생겼다. 원래 Bifidobacterium longum이라는 이름으로 제출이 되었던 유전체 정보 기록이지만, ANI 분석에 의하여 Alloscardovia omnicolens라는 이름으로 바뀐 것이다. RefSeq이 아니라 GenBank 엔트리임에 유의하자. 

이는 매우 바람직한 변화가 아닐 수 없다. 13만개가 훌쩍 넘는 유전체 정보를 전부 점검하여 일괄적으로 변경을 하는 것인지, 점진적으로 점검을 하는 것인지는 아직 모르겠다. 그리고 제출한 유전체 서열과 cutoff 기준을 만족시키는 sequenced type strain이 아직 없다면, submitted name을 바꿀 수는 없을 것이다.

메일에서 소개한 관련 논문 두 가지도 인용해 본다.

Meeting report: GenBank microbial genomic taxonomy workshop (12-12 May, 2015). Stand Genomic Sci (2016 ) PMC

Using average nucleotide identity to improve taxonomic assignments in prokaryotic genomes at the NCBI. Int J Syst Evol Microbiol (2018) PubMed

그림 1. ANI process workflow for processing of pre-submission genomes.
출처: 두번째 논문(Int J Syst Evol Microbiol)

댓글 없음: