2013년 5월 14일 화요일

SRA에 NGS raw data file 등록하기

미생물 genome assembly data는 NCBI에 수도 없이 등록해 보았지만, SRA(sequence read archive 또는 short read archive)에 FASTQ 파일을 올리는 것은 처음이다. NGS를 통한 유전체 정보 생산이 빈번해지면서, 마무리되지 않은 assembly 결과만을 등록하는 일이 잦아지는 것은 사실이다(심지어 annotation 정보도 부가하지 않는다). 최종적인 validation을 거치지 못한 assembly이기 때문에, 원본 데이터를 같이 등록하는 것은 매우 의미있는 일이 된다. 의무 사항은 아니지만, WGS 섹션에 genome assembly를 등록하게 되면 SRA에 raw data를 올려달라는 권고를 항상 받게 된다.

이번에는 WGS 등록도 매우 순조로왔다. 작년 여름-가을 쯤에는 몇 주씩 기다리고는 했었는데.

UCSC의 조나단 아이센이 NCBI SRA의 효용성에 대해 비판의 글을 자기 블로그 "The Tree of Life"에 올렸던 것을 본 일이 있다. 사실 그 글은 본 것은 이삼일 전인데, 포스팅 날짜는 2011년이니 그렇게 오래 지난 것도 아니다.

Though I generally love NCBI, the Sequence/Short Read Archive (SRA) seems to have issues; what do others think?

2011년에 NCBI에서 SRA 서비스를 중단한다고 공식(?) 발표를 했던 적이 있었다고 한다. 위 글이 작성된지 일주일 뒤에 올라온 글이다. 그런데 나는 2013년 5월 중순 현재 별 문제 없이 HiSeq 2000 유래의 파일 두 개를 등록했는데?

End of Sequence Read Archive (SRA) - some quick notes


SRA에 시퀀스 파일을 등록하려면 BioProject뿐 아니라 BioSample까지도 등록을 미리 해야 한다. NCBI에서 받은 SRA 서열 등록 안내 메일을 인용해 본다.

In order to complete an SRA submission you will need to: 

1)Go to the SRA Homepage and click on the “submit” tab:
and login. Then click the “create new submission” button.

2) Next, as a part of your SRA submission, create an Experiment for each sequencing library you will be uploading data for, and link each Experiment to your BioProject and the corresponding BioSample (these should be the same ones used for your WGS submission) by entering the accessions (they look like PRJNA# and SAMN# respectively) in the text box provided for each during creation of your Experiment.

3) Create at least 1 run for each Experiment, during the creation of the runs you will give us information about the files you will upload to us such as file name, md5sum, etc. so we can verify we have received them error-free and can properly link them to your submission.

Please take a look at our quick start guide as it contains useful information for completing each of these steps: http://www.ncbi.nlm.nih.gov/books/NBK47529/

Once you have finished entering this metadata for your submission, you can upload your files to us, the FTP information is displayed when you create a Run.
리눅스에서 ftp command로 5기가 조금 넘는 파일을 올리는데까지 성공했다. 30분 정도 걸린 듯.

GenBank만 해도 적지 않은 용량인데, SRA는 어떻게 유지하는 것일까?

댓글 없음: