2018년 2월 13일 화요일

왜 GenBank에 존재하는 일부 bacterial genome이 RefSeq에는 존재하지 않는가?

요즘 Paenibacillus genus에 속하는 균주의 comparative genomics 분석을 수행하면서 천랩의 EZBioCloud를 많이 참고하고 있다. 여기에서는 GenBank에 공개된 유전체를 가져다가 자체적으로 QC를 실시하여 특정 species로 할당된 genome을 제공한다. 간단하게 설명하자면 type strain(표준 균주)와 ANI 측면에서 같은 종으로 묶이는 자료를 그 종의 카테고리에 실어 놓는 것이다. 비록 GenBank에 제출하면서 부여한 original label이 Paenibacillus polymyxa strain=XYZ라 하여도 EZBioCloud의 QC 결과에 따라서 다른 species candidate(여기에서는 CP000154_s와 같은 'phylotype'으로 취급)에 넣게 되는 일도 벌어진다는 뜻이다.

이 작업을 하는 도중에 GenBank에는 존재하지만 해당되는 자료가 RefSeq에 없는 것을 세 건 발견하였다. 원칙적으로 NCBI에는 assembly accession에서 접두어(GCA: GenBank, GCF: RefSeq)만 달리한 두 레코드가 존재해야 한다. 다음의 자료는 이에 해당하는 RefSeq 자료가 없다. 아래에 표시한 것은 GenBank assembly에 대한 링크이다. 여기를 클릭해 들어가면 왜 그러한지를 짐작할 수 있다.

https://www.ncbi.nlm.nih.gov/assembly/GCA_001447315.1
Excluded from RefSeq:
  • many frameshifted proteins
RefSeq assembly accession: 
n/a


https://www.ncbi.nlm.nih.gov/assembly/GCA_001874405.2

RefSeq assembly accession: 
GCF_001874405.1 (suppressed)

https://www.ncbi.nlm.nih.gov/assembly/GCA_001874425.2
RefSeq assembly accession: 
GCF_001874425.2 (suppressed)

뒤의 두 자료는 단지 'suppressed'라고만 적혀있다. 어떤 자료가 suppress될 운명에 처하는 것일까? Prokaryotic RefSeq Genome Re-annotation Project에 그 설명이 있었다.

Suppressed genomes: Several hundred RefSeq bacterial genomes that did not pass assembly or annotation quality validation have been suppressed. An FTP report file listing the most recent suppressions will be provided soon in the RefSeq FTP site.

RefSeq FAQ 페이지에서도 상세한 설명을 볼 수 있다. Suppressed accession에 대한 상세한 정보는 두 달에 한번 배포되는 RefSeq release(2018년 2월 현재 release86)의 README 파일을 참조하라. NCBI의 자료를 편하게 다운로드하여 쓸 생각만 했지 accession이 바뀌거나 사라진(임시 혹은 영구적) 경우까지 감안해야 할 줄은 몰랐다. 제출자에 의한 update 이상의 일이 벌어지고 있음을 비로소 깨닫게 되었다.

댓글 없음: