예전에는 다음의 명령어 한 줄을 이용하여 공개된 모든 박테리아의 유전체 염기서열(FASTA)을 하나의 파일로 다운로드할 수 있었다.
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria/all.fna.tar.gz그러나 NCBI ftp 서버 내의 자료 체계가 바뀌면서 이제는 좀 더 복잡한 방법을 거쳐야 한다. 너무나 많은 생명종의 유전체 정보가 넘쳐나면서 계속 한 덩어리의 FASTA file을 업데이트해 나가는 것은 너무나 번거로운 일이 된 관계로 아마 정보를 필요로 하는 사용자가 용도에 맞는 데이터셋을 선택하여 다운로드하라는 정책의 변화라고 생각된다. 물론 NCBI에서는 이에 대한 친절한 사용자 가이드를 제공하고 있다.
이 문제를 해결하는데 도움이 된 웹사이트의 주소는 다음과 같다.
[Biostars] Question: Download All The Bacteria Genomes From NCBI
이에 대한 NCBI의 친절한(?) 가이드는 다음의 PDF 파일에 잘 설명되어 있다. 각 genome에 대한 ftp 주소를 얻어낸 뒤 FASTA 파일을 받아내는 것이 핵심이다. 생각보다 조금 복잡하다.
HowTo - Downloading Genomic Data
앙상블의 박테리아 유전체 정보는 다음의 ftp 사이트에서 받으면 된다.
ftp://ftp.ensemblgenomes.org/pub/current/bacteria/fasta
댓글 4개:
Thanks for splitting your comprehension with us. It’s really useful to me & I hope it helps the people who in need of this vital information.
Java training in Chennai
Java training in Bangalore
Java training in Hyderabad
Java Training in Coimbatore
Java Online Training
Good Post! Thank you so much for sharing this pretty post, it was so good to read and useful to improve
my knowledge as updated one, keep blogging
hardware and networking training in chennai
hardware and networking training in porur
xamarin training in chennai
xamarin training in porur
ios training in chennai
ios training in porur
iot training in chennai
iot training in porur
Great blog, it is very impressive.
Blockchain Course in Chennai
Blockchain Training in Chennai
Thanks for providing valuable information, keep posting Software Testing Classes in Pune
댓글 쓰기