2015년 7월 7일 화요일

원핵생물(prokaryote) 유전체에 대한 NCBI의 RefSeq 정책이 어떻게 변해가고 있는가

RefSeq, 즉 Reference Sequence database는 공개된 염기서열과 그 단백질 산물의 curated collection이다. 새로운 미생물 유전체를 해독하여 나름대로 주석화를 하여 NCBI에 올리면 GenBank로 등록이 된다. 이 중에서 "major organism"에 해당하는 것이 RefSeq로 옮겨가는 영광(?)을 누린다.

NGS의 발달로 워낙 많은 수의 미생물 유전체가 완성 수준으로 만들어지게 되었고, 이에 따라서 RefSeq의 정책도 변하게 되었다. 원래 RefSeq에서는 GenBank에 등록된 유전자 정보를 기반으로 하여 재 주석화를 거쳐서 RefSeq에 수록하는 것으로 알고 있었는데, 요즘은 그렇지만도 않은 것 같다. 아주 뛰어난 기술을 지닌 컨소시엄에서 주석화를 한 것이 아니라면 몇 몇 중요한 유전자가 자동 주석화 과정에서 누락되는 경우가 발생하기 때문이다. 나 역시 그런 경험을 자주 겪었다.

2009년에 등록한 대장균 B 스트레인을 재주석화할 것인가, 혹은 NCBI가 자동으로 새로 주석화한 것을 그대로 쓸 것인가를 고민하다가 NCBI의 최근 정책이 어떤지 찾아보기로 하였다. 아래에 쓴 내용은 Prokaryotic RefSeq Genomes 페이지와 여기에 딸린 문서들을 세심하게 읽어보고 정리한 것임을 미리 밝힌다.

RefSeq의 모든 고세균 및 세균 유전체는 122개의 selected reference genome을 제외하면 전부 NCBI의 prokaryotic genome annotation pipeline으로 주석화가 이루어진다.

1. Reference genomes
NCBI의 스탭진과 공동연구자들의 참여에 의해 만들어진 가장 고품질의 데이터이다. 의학적 중요성(중요한 감염병 원인세균), 어셈블리와 주석화의 품질, 실험적 증거의 유무 등이 reference genome이 되는 자격 요건이 된다. 단백질 정보는 YP_ 혹은 NP_로 시작하는 accession을 갖는다. Reference genome 정보는 다음의 사이트에서 얻을 수 있다.


2. Representative genomes
이외의 중요한 유전체들은 클러스터링을 거친 뒤 종 수준의 분류(예: type strain)나 어셈블리의 품질(완성본 유전체를 선호)이라는 측면에서 주안점을 두어 선별하게 된다. 이렇게 만들어진 representative genome에서 유래한 단백질 정보는 WP_로 시작하는 accession을 갖는다. Representative genome의 정보는 다음 사이트에서 얻을 수 있다.

3. Variant genomes: 나머지 대부분의 것들
Reference나 representative는 되지 못하지만 여전히 많은 유전체이 RefSeq에 존재한다. 이들은 분류학적으로 다양한 균주를 나타내거나 혹은 조립 상태가 약간 미흡한 것들이다. 단백질 역시 WP_로 시작하는 accession을 갖는다.


RefSeq non-redundant proteins
WP_로 시작하는 단백질은 전부 non-redundant protein accession에 해당한다. 이는 2013년 중반쯤 새로 도입된 RefSeq protein record의 유형이다. 서로 밀접하게 연관된 미생물의 유전체 해독이 잦아지면서 단백질 수준에서 100% 동일한 것들이 급증하게 되었고, 이를 하나의 엔트리로 저장하기 위해 이러한 방식을 도입한 것이라 한다. 서열이 바뀔 가능성이 없으므로 버전 번호는 항상 1이다.

Prokaryotic RefSeq Genome Re-annotation Project (원문 링크)

RefSeq에 수록된 미생물 유전체는 지속적으로 NCBI의 annotation pipeline에 의해 재주석화가 이루어진다. 최고 수준의 주석화 정보를 가진 소수의 유전체를 제외하면 전부 이 과정 하에 놓여 있다고 보아도 된다. 따라서 최초에 유전체 정보를 제출한 사람이 매번 업데이트를 하지 않아도 되는 것이다. 더욱 반가운 소식은 자체적인 gene prediction을 수행하므로 GenBank 등록 당시에 누락된 유전자가 있다 하더라도 re-annotation 과정을 통해 예측될 수 있다. RefSeq의 유전자와 GenBank 유전자의 연결 고리는 바로 locus tag이다. 예전의 locus ta은 'old_locus_tag' qualifier로 확인 가능하고, RefSeq에서 새로 부여한 locus tag은 _RS<숫자>의 형식을 취한다.

댓글 없음: