2015년 7월 24일 금요일

NCBI에서 유전체 정보 파일 찾기

염기서열과 annotation을 모두 담고 있는 GenBank 포맷의 파일의 쓰임새는 무궁무진하다. ArtemisEMBOSS 패키지만 있으면 못할 것이 없다. 그러면 NCBI에서 이를 어떻게 다운로드하는 것이 가장 좋은가? 단, 혼동을 피하기 위하여 이 글의 나머지 부분에서 GenBank는 데이터베이스가 아니라 파일의 포맷을 일컫는 것으로 정의하자. 데이터베이스(RefSeq와 대응하는) 명칭으로는 INSDC라는 용어를 쓰도록 하겠다.

보통 유전체 서열 정보를 NCBI에 등록하면 INSDC에 올라간다. 이 중에서 완성도가 높고(미생물의 경우 complete genome) 중요도가 높으면 RefSeq로도 등록이 된다. 이 과정에서 NCBI가 새롭게 주석화를 실시한다. 만약 매우 중요한 모델 생물의 유전체를 다루는 컨소시엄에서 정보를 생산하게 되면 곧바로 RefSeq로 등록되는 영광을 누리게 된다. RefSeq를 구성하는 세 가지 카테고리의 유전체 정보(reference genome, representative genome 및 variant genome)에 대해서는 이전에 작성한 글(원핵생물 유전체에 대한 NCBI의 RefSeq 정책이 어떻게 변해가고 있는가)를 참고하라.

예전에는 RefSeq 자료를 만들 때 INSDC의 유전자 정보를 그대로 이용하되 functional annotation을 새롭게 실시하였다. 이는 유전자 산물 이름(product)을 자체 주석화 파이프라인에 의해서 새롭게 매겨 줌을 의미한다. 그러나 이제는 유전자 예측(gene prediction or functional prediction)도 자동 파이프라인에 의해서 새롭게 실시한다. RefSeq 자료에서 locus tag의 접두사는 INSDC의 것과 동일하게 유지되지만, 숫자 필드의 앞부분에 'RS'가 추가된다. 그리고 이에 해당하는 예전의 locus tag 정보는 old locus tag이라는 qualifier에서 살펴볼 수 있다.

요즘은 다루어야 할 유전체가 워낙 많아서 완성된 유전체 정보를 등록하면서 NCBI의 자동 주석화 파이프라인을 써 달라고 요청하는 경우가 많아졌다. 이렇게 등록된 INSDC와 RefSeq는 내용적으로 사실상 차이가 없다. 실제 사례를 들어보자. 올해 내가 간단한 논문을 쓰면서 등록한 E. coli BL21이 어떻게 되어 있는지를 찾아보겠다(TaKaRa에서 파는 competent cell을 그대로 이용).

http://www.ncbi.nlm.nih.gov/assembly/GCF_000833145.1/

여기에는 INSDC와 RefSeq로 연결되는 링크(웹사이트 및 ftp)가 전부 수록되어 있다.

http://www.ncbi.nlm.nih.gov/nuccore/CP010816.1 (GenBank, INSDC)
http://www.ncbi.nlm.nih.gov/nuccore/NZ_CP010816.1 (RefSeq)

예전에는 RefSeq accession number가 NC_....의 형식이었는데, 이제는 NC_(INSDC accession)으로 바뀐 모양이다.

유전자의 수는 전부 동일하다. RefSeq 자료로 가 보자. locus tag의 숫자 필드는 RS로 시작한다. old locus tag에는 RS라는 문자열만 없을 뿐 숫자 필드는 동일하다.

     gene            190..255
                     /gene="thrL"
                     /locus_tag="SR36_RS00005"
                     /old_locus_tag="SR36_00005"

웹사이트에서 GenBank 포맷 파일을 받는 것이 가능하지만 웹 브라우저로 파일 내용을 로드하다가 먹통이 되는 경우가 종종 있다. 차라리 FTP 링크를 아는 것이 훨씬 자연스럽다.

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/

여기에 있는 서브디렉토리는 하나의 species에 대해 존재하는 모든 genome을 모아 놓은 것이다. 대장균을 찾아서 들어가보면 각 스트레인에 대한 모든 최신 어셈블리가 다음 위치에 있음을 알 수 있다.


[1] ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/Escherichia_coli/latest_assembly_versions/ 


그런데 별로 친절하지가 않다. 마치 암호와 같은 assembly ID로만 되어있어서 뭐가 어느 스트레인에 대한 것인지 알 수가 없다. 다음 파일을 열어 보아야 뭐가 뭔지 비로소 알 수가 있다. 게다가 압축도 풀어야 한다.

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/Escherichia_coli/assembly_summary.txt

각 스트레인별로 별도의 폴더가 있으면 후속 작업이 조금 더 편할 것이다. 그렇다면 다음 주소가 훨씬 요긴하게 쓰일 것이다.


[2] ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria 내용물은 분명히 RefSeq가 맞다.


자, 그러면 같은 균주의 RefSeq record가 ftp site에 따라 어떻게 다른지 확인해 보자. 추억의 세균, Hahella chejuensis의 정보를 검색해 본다. 먼저 [1]번 체계의 주소를 찾아가 본다. 주소가 너무 길어서 링크를 직접 드러나게 타이핑을 하지는 않겠다.
  • Hahella chejuensis, RefSeq style [1] 링크 GCF_000012985.1_ASM1298v1_genomic.gbff.gz, locus tag에 RS가 붙어있다.
  • Hahella chejuensis, RefSeq style [2] 링크 RS가 붙어있지 않다.
  • Hahella chejuensis, GenBank(INSDC) 링크 (참고용)
종합적으로 판단하건대 stype [2]의 링크가 가장 무난하다. JSpecies 등에서 유전체 정보를 자동으로 받을 때 사용하는 주소도 style [2]인 것으로 안다. 그렇다면 매우 최근에 등록한 BL21 자료가 style [2] 주소에 있는가? 없다. 그러면 도대체 style [2] 주소에 등록되는 영광을 누리는 RefSeq 레코드는 무엇이란 말인가? 좀 오래된 것? 나도 잘 모르겠다 :)





댓글 없음: