2017년 10월 20일 금요일

Strain, clone and species

어제 Bacillus에 속하는 세균 한 건의 BioProject/BioSample/Genome/SRA 4종 세트를 NCBI에 등록하였다. 매번 느끼는 일이지만 submission portal에 접속을 해보면 사용자 인터페이스가 아주 조금씩 바뀐 것을 알 수 있다. 정보 등록 작업에서 만날 수 있는 여러 상황들을 배려하면서 - 하지만 그러한 이유로 결코 복잡해지지는 않는다 - 웹 인터페이스가 능률적으로 변하고 있는 것이다. 한두 번 경험해 보면 다른 설명자료는 필요가 없이 그 웹페이지 안에서 어떻게 입력을 하고 다음 단계로 넘어가야 하는지 충분히 이해할 수 있다. 별다른 정보는 하나도 없으면서 일단 상단에 이미지부터 띄우고 보는 우리 주변의 웹사이트는 반성을 좀 해야 된다.

예전에는 제출자가 만든 annotation 정보가 없다 하더라도 command line tool을 이용하여 .sqn file을 만들어서 SequinMacroSend에서 파일을 전송해야 했다. 하지만 지금은 submission portal에서 FASTA file을 올리고 필요한 부가 정보를 제공하면 끝이다. 새로운 등록 시스템이 서비스를 개시하여도 과거의 인터페이스(SequinMacroSend)를 즉각 폐쇄하지 않는다는 것 역시 좋은 점이라 생각한다.

등록한 미생물의 BioProject 페이지를 방문해 보았다. taxonomy link를 클릭하니 rank는 species로 나타난다. no rank, 즉 strain이 되어야 하는 것 아니었나? 아마도 BioProject의 target 등록 창에서 스트레인 이름 없이 'Genus species'로만 입력을 해서 그런 것으로 생각되었다. 입력창의 형식은 다음과 같다. 맨 위의 Organism name 창에는 최하위 레벨로는 species까지만 적도록 되어있다. 만약 여기에 Genus species strain_name 또는 Genus species strain:strain_name으로 기재했다면 자동으로 NCBI TaxID 역시 strain 수준에 맞추어 발급되지 않았었을까?

그래서 bioprojecthelp로 이메일을 보내어 이를 strain level로 만들어 달라고 요청하였다. 그랬더니 strain level의 TaxID는 더이상 발급하지 않는것으로 정책이 바뀌었다는 답장이 왔다. 하긴 너무나 많은 개별 (미생물) strain의 유전체 정보 등록 요청이 쇄도하닌 그럴 수밖에 없었을 것이다.
Regarding your request to assign the organism name and TaxID at the strain level, NCBI policy has changed and strain-level TaxIDs are no long assigned, as long as the species is designated. If you are uncertain of the species, our Taxonomy team will assign a TaxID for organism name "'Bacillus sp. P-10"; otherwise, it will remain as currently assigned.
이렇게 정책이 바뀐 것에 대한 공지가 있었지 않았을까? 구글링을 해 보니 2014년도 Standard In Genomic Sciences에 Toward richer metadata for microbial sequences: replacing strain-level NCBI taxonomy taxids with BioProject, BioSample and Assembly record라는 글이 실린 것을 발견하였다. 초록 전문을 인용해 보자.
Microbial genome sequence submissions to the International Nucleotide Sequence Database Collaboration (INSDC) have been annotated with organism names that include the strain identifier. Each of these strain-level names has been assigned a unique ‘taxid’ in the NCBI Taxonomy Database. With the significant growth in genome sequencing, it is not possible to continue with the curation of strain-level taxids. In January 2014, NCBI will cease assigning strain-level taxids. Instead, submitters are encouraged provide strain information and rich metadata with their submission to the sequence database, BioProject and BioSample.
그렇다! 이미 3년 전부터 이렇게 바뀐 제도를 실행하고 있었던 것이다. Strain 수준의 생명체 샘플에 대해서는 더 이상 taxID를 부여하지 않되(어차피 여기에 딸린 정보량도 많지 않다) 대신 BioProject와 BioSample 등록을 통해서 풍부한 메타데이터를 제공받겠다는 뜻이렸다. 주목할만 한 사실은 정책이 새로 바뀌었어도 기존에 있던 자료는 건드리지 않는다는 것이다. 즉 과거에 strain 수준으로 이미 발급된 taxID를 전부 없애거나 상위 랭크의 species로 변경하지 않음을 의미한다.

Strain인가 isolate인가?

Different isolates can be the same strain, but different strains can not be the same isolate. (참고 사이트)
만약 자연계에서 어떤 미생물을 분리했다면 적당한 isolate 이름을 붙이게 된다. 이는 이미 보고된 해당 생명종의 어느 strain에 속할 수도 있고, 새로운 strain에 속할 수도 있다. 사실은 isolate 이름에 해당하는 식별자를 strain에 갖다붙이는 일이 대단히 흔한데, 엄밀하게 따지자면 strain은 taxonomy 관점에서 붙이는 체계이다. Bergey's manual에서는 'A strain is made up of the descendants of a single isolation in pure culture and usually is made up of a succession of cultures ultimately derived from an initial single colony'라고 정의하였다.

Strain, clone and species: comments on three basic concepts of bacteriology

이것은 구글 검색을 통해 찾은 논문의 제목이다. Genomics의 시대가 도래하면서 유성생식을 하지 않는 원핵생물의 species 구별 방법에 대해서 많은 진전이 있었다. 이 논문은 2000년도에 발표된 것이라서 이러한 사항을 수용하고 있지는 못하지만, strain의 개념이 역사적인 맥락에서 어떻게 형성되어 왔는지, 또 taxonomy sense의 strain과 자연계에서의 strain에 대해서도 충실히 설명하고 있는 자료이다. 본 논문에서 예로 든 것은 전부 clinical bacteriology에 해당하는 것이지만, 다른 분야의 미생물학에도 그대로 적용될 수 있다.

