2016년 4월 4일 월요일

NCBI에서 미생물(bacteria) 유전체 서열을 한번에 다운로드하기

한번에? 만약 이 '한번에'의 의미가 '하나로 이루어진 FASTA 파일 형태로'를 의미하는 것이라면, 대답은 간단하다. 이제 그런 것 없다!

예전에는 다음의 명령어 한 줄을 이용하여 공개된 모든 박테리아의 유전체 염기서열(FASTA)을 하나의 파일로 다운로드할 수 있었다.
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria/all.fna.tar.gz
그러나 NCBI ftp 서버 내의 자료 체계가 바뀌면서 이제는 좀 더 복잡한 방법을 거쳐야 한다. 너무나 많은 생명종의 유전체 정보가 넘쳐나면서 계속 한 덩어리의 FASTA file을 업데이트해 나가는 것은 너무나 번거로운 일이 된 관계로 아마 정보를 필요로 하는 사용자가 용도에 맞는 데이터셋을 선택하여 다운로드하라는 정책의 변화라고 생각된다. 물론 NCBI에서는 이에 대한 친절한 사용자 가이드를 제공하고 있다.

이 문제를 해결하는데 도움이 된 웹사이트의 주소는 다음과 같다.

[Biostars] Question: Download All The Bacteria Genomes From NCBI

이에 대한 NCBI의 친절한(?) 가이드는 다음의 PDF 파일에 잘 설명되어 있다. 각 genome에 대한 ftp 주소를 얻어낸 뒤 FASTA 파일을 받아내는 것이 핵심이다. 생각보다 조금 복잡하다.

HowTo - Downloading Genomic Data

앙상블의 박테리아 유전체 정보는 다음의 ftp 사이트에서 받으면 된다.

ftp://ftp.ensemblgenomes.org/pub/current/bacteria/fasta