2018년 3월 15일 목요일

표준 균주(type strain)의 유전체 정보가 잘 정리된 사이트는 없을까?

NCBI의 ftp 사이트에 공개된 assembly_summary.txt에서 공개된 미생물 균주 및 유전체와 관련한 대단히 많은 정보를 얻을 수 있다. RefSeq에 등록된 bacteria 유전체의 경우는 다음의 파일을 참조하면 된다.

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/assembly_summary.txt
ftp://ftp.ncbi.nlm.nih.gov/genomes/README_assembly_summary.txt (설명)

불편한 점이 한 가지 있다면 이 정보로부터 등록된 유전체 정보가 표준 균주(type strain)에서 유래한 것인지를 파악하기가 썩 쉽지는 않다는 것이다. "relation_to_type_material"을 나타내는 22번째 컬럼에 assembly from type material 또는 assembly from synonym type material이라고 기록이 되어 있다면 표준 균주에서 유래한 정보라고 생각해도 될 것 같다.

NCBI에서는 등록된 유전체 정보에 입각하여 이것이 정말 특정 종의 것이 맞는지를 검증하는 일까지는 하지 않는다. 따라서 이에 대해서는 각별한 주의가 필요하다. 천랩의 EzBioCloud에서는 16S rRNA gene sequence와 ANI 등의 지표를 이용하여 등록된 균주의 유전체가 표준 균주의 그것과 일치하는지를 점검하여 species name을 재할당한다. 이것이 original label과 다른 경우는 부지기수로 발생한다.

EzBioCloud의 첫 페이지 오른쪽 상단의 트리모양 그림을 클릭해 보자. 다음 그림에서 빨강색으로 둘러친 곳이다.



그 다음에 나타나는 Taxonomy 페이지의 검색창에 적당한 genus 이름을 넣는다. 예를 들어 Bacillus를 입력하면 오른편에 데이터 타입 카운트가 나온다.



1,740개로 표시된 genome을 클릭하면 유전체 목록이 나온다. Strain name에 'type'이 표시된 것이 앞쪽에 나열되기 때문에 이를 참조하면 type strain의 유전체 정보를 다운받는데 활용할 수 있다. 하지만 이 목록이 여러 페이지에 걸쳐 나오는 경우 엑셀로 저장하는 기능이 없고, 여러 유전체를 선택하여 한번에 EzBioCloud에서 다운로드받기도 어렵다. 내가 주로 사용하는 방법은 GCA_로 시작하는 assembly accession number를 추출하여 NCBI에서 직접 다운로드하는 것이다.

현실은 이보다 좀 복잡하다. NCBI에 Bacillus siamensis라는 이름으로 등록된 다음의 두 유전체를 예로 들어서 설명하겠다. 내가 작업을 하던 파일에서 그대로 복사한 것이라 공백이 들어가야 할 위치에 밑줄이 삽입된 상태이다.

GCF_000262045.1_KCTC_13613_01   Bacillus_siamensis_KCTC_13613
GCF_000966575.1_ASM96657v1      Bacillus_siamensis_XY18

위의 것은 우리 연구소에서 시퀀싱을 하여 내가 등록한 것이다. 표준 균주에 해당하고, assembly_summary.txt 파일에도 assembly from type material라 기록된 상태이다. 두번째 것도 assembly from type material이라 되어 있다. XY18 = KCTC 13613인가? 복수의 culture collection에 기탁되면서 다른 번호를 부여받지만 결국은 같은 material인 경우가 매우 많기 때문이다. 하지만 XY18은 culture collection에서 유래된 번호 같지는 않다. XY18에 대한 논문이 BioProject에 나와있어서 클릭해 보았다.

Phylogenomic analysis shows that ‘Bacillus vanillea’ is a later heterotypic synonym of Bacillus siamensis. Int J Syst Evol Microbiol. 2015 Oct;65(10):3507-10. doi: 10.1099/ijsem.0.000444. PubMed

(later) heterotypic synonym, 즉 이형이명에 대해서 지난번에 글을 작성한 적이 있다(링크). 그러면 바로 위의 논문에서 발견한 사항을 간단히 설명해 보겠다.

  1. Bacillus siamensis는 과거에 보고된 종이다.
  2. Vanilla bean에서 XY18이라는 균주를 발견하여 'Bacillus vanillea'라는 신종으로 보고를 한 일이 있다(논문 링크)
  3. 그런데 DDH와 ANI 분석을 해 보니 이미 보고된 Bacillus siamensis의 type strain과 cutoff 이내로 동일하다.
  4. Therefore, it is proposed that the species 'Bacillus vanillae' XY18 should be reclassified as a later heterotypic synonym of Bacills siamensis KCTC 13613T.
  5. XY18의 특성을 수용할 수 있게끔 B. siamensis의 description을 수정한다(an emended description).
DSMZ의 Prokaryotic Nomenclature Up-to-date에는 B. vanillae가 없다. 이러한 상황이라면 앞으로도 공식 종 명칭으로 등극하게 될 가능성은 없다. EzBioCloud에서는 이 균주를 어떻게 취급하고 있는지 궁금해졌다. GCF_... 번호를 사용하여 찾으면 독립된 species의 type strain으로 나타난다.


그러나 EzBioCloud의 첫 화면에서 Bacillus vanillea를 검색하여 taxonomy 링크를 누르면 Status는 'Invalid name'이라고 나온다(링크). 앞서 살펴본 유전체 목록(Bacillus 또는 Bacillus vaniliea)에서는 이 종명이 valid한지의 여부를 보여주지 않는다. Taxon name을 한번 더 클릭해서 들어가는 수고를 해야 한다.

Assembly accession(RefSeq는 GCF, GenBank는 GCA)을 통해서 EzBioCloud의 public genome과 NCBI genome data를 연결할 수 있다는 것은 그나마 다행이다. Bacillus species의 tree에서 문제의 두 균주를 표시해 보자. PhyloSift marker(37 genes)의 sequence alignment를 FastTree로 처리하여 트리 파일을 생성하였고, 요즘 즐겨 사용하는 iTOL을 이용하여 그림을 그렸다.


Branch length가 매우 짧은 두 개의 tip은 어차피 같은 종이니 별로 많은 정보를 주지 않는다. 바로 밑(Bacillus velezensis)의 경우는 동일한 type material(culture collection만 다름)을 시퀀싱한 것에서 온 것이지만 KCTC 13012는 우리 기관에서 유전체 해독을 한 것이라서 중복임을 알면서도 일부러 표시를 해 놓은 것이다.

오늘의 경험으로부터 얻은 결론: 모든 DB가 완벽하지는 않다.

댓글 없음: