2016년 4월 4일 월요일

NCBI에서 미생물(bacteria) 유전체 서열을 한번에 다운로드하기

한번에? 만약 이 '한번에'의 의미가 '하나로 이루어진 FASTA 파일 형태로'를 의미하는 것이라면, 대답은 간단하다. 이제 그런 것 없다!

예전에는 다음의 명령어 한 줄을 이용하여 공개된 모든 박테리아의 유전체 염기서열(FASTA)을 하나의 파일로 다운로드할 수 있었다.
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria/all.fna.tar.gz
그러나 NCBI ftp 서버 내의 자료 체계가 바뀌면서 이제는 좀 더 복잡한 방법을 거쳐야 한다. 너무나 많은 생명종의 유전체 정보가 넘쳐나면서 계속 한 덩어리의 FASTA file을 업데이트해 나가는 것은 너무나 번거로운 일이 된 관계로 아마 정보를 필요로 하는 사용자가 용도에 맞는 데이터셋을 선택하여 다운로드하라는 정책의 변화라고 생각된다. 물론 NCBI에서는 이에 대한 친절한 사용자 가이드를 제공하고 있다.

이 문제를 해결하는데 도움이 된 웹사이트의 주소는 다음과 같다.

[Biostars] Question: Download All The Bacteria Genomes From NCBI

이에 대한 NCBI의 친절한(?) 가이드는 다음의 PDF 파일에 잘 설명되어 있다. 각 genome에 대한 ftp 주소를 얻어낸 뒤 FASTA 파일을 받아내는 것이 핵심이다. 생각보다 조금 복잡하다.

HowTo - Downloading Genomic Data

앙상블의 박테리아 유전체 정보는 다음의 ftp 사이트에서 받으면 된다.

ftp://ftp.ensemblgenomes.org/pub/current/bacteria/fasta

댓글 2개:

aarthi :

Thanks for splitting your comprehension with us. It’s really useful to me & I hope it helps the people who in need of this vital information.
Java training in Chennai

Java training in Bangalore

Java training in Hyderabad

Java Training in Coimbatore

Java Online Training

praveen :

Good Post! Thank you so much for sharing this pretty post, it was so good to read and useful to improve
my knowledge as updated one, keep blogging
hardware and networking training in chennai

hardware and networking training in porur

xamarin training in chennai

xamarin training in porur

ios training in chennai

ios training in porur

iot training in chennai

iot training in porur