2017년 8월 8일 화요일

PacBio의 HDF5 raw data file을 NCBI SRA에 등록하는 요령

일루미나 장비에서 생산한 sequencing raw data(fastq file)을 SRA에 올리는 일은 하도 여러번 경험을 해서 과장을 좀 보태면 눈을 감고도(!) 할 수 있을 수준이 되었다. 반면 PacBio의 raw data를 등록하려면 약간의 요령이 필요하다. 장비에서 제공하는 데이터 파일의 구성이 다른데다가 이를 전부 다 SRA에 밀어넣을 필요가 없기 때문이다. 오늘의 포스팅에서는 이를 정리하여 보고자 한다.

먼저 PacBio의 GitHub 사이트에서 제공하는 문서 Submitting PacBio data to the SRA를 읽어보는 것도 좋을 것이다. SRA submission에 대해서 아직 개념을 잡기 어려운 상태라면 NCBI가 제공하는 공식 문서인 SRA Submission Quick Start를 먼저 정독해 보자. 다른 submission과 달리 SRA가 약간 혼동스런 이유는 아마도 제출을 위한 창구가 두 곳 존재한다는 것일지도 모르겠다. 첫번째는 submission portal을 통한 것(아마도 이것이 공식 창구에 해당할 것이다), 그리고 두번째로는 SRA submission tracking and management 웹페이지를 통한 것이다. 후자에서는 상세한 데이터의 추가와 수정 등이 가능하다. 만약 하나의 library에 대한 multiple run 결과를 제출하고자 한다면 후자의 웹사이트를 쓰는 것이 바람직할 것이다. 대신 첫번째 사이트는 metadata file을 이용하여 자료 특성을 기술한 뒤 실제 파일을 업로드하게 되어있다.

시퀀싱 센터에서는 보통 하나의 SMRT cell에 대하여 하나의 zip file로 묶은 결과물을 제공한다. 압축을 풀면 다음과 같이 두 개의 파일과 Analysis_Results라는 서브디렉토리가 생긴다. 파일 이름의 앞부분에 붙어있는 매우 긴 문자열은 하나의 SMRT cell에서 유래한 모든 파일에 대해서 동일한데 이를 여기에 일일이 쓰는 것은 번거로우므로 "RUN_ID'로 치환하였다.
RUN_ID_s1_p0.mcd.h5
RUN_ID_s1_P0.metadata.xml*
RUN_ID의 실제 사례:  m150614_005233_42244_c100830662550000001823182410291540

그러면 Analysis_Results 서브디렉토리로 내려가 보자. 여기에는 총 10개의 파일이 있다. 모든 것들을 총괄할 것처럼 보이는 .bas.h5 파일이 하나, 그리고 .bax.h5 + .subreads.fasta + .subreads.fastq 파일이 총 세 묶음 존재한다.
RUN_ID_s1_p0.1.bax.h5*
RUN_ID_s1_p0.1.subreads.fasta
RUN_ID_s1_p0.1.subreads.fastq
RUN_ID_s1_p0.2.bax.h5*
RUN_ID_s1_p0.2.subreads.fasta
RUN_ID_s1_p0.2.subreads.fastq
RUN_ID_s1_p0.3.bax.h5*
RUN_ID_s1_p0.3.subreads.fasta
RUN_ID_s1_p0.3.subreads.fastq
RUN_ID_s1_p0.bas.h5*
이렇게 많은 파일 중에서 실제로 SRA 등록에 필요한 것은 .metadata.xml, .bas.h5, 그리고 3 개의 .baxh5 파일이다(별표로 표시). 이 파일의 이름들을 다음의 SRA metadata file에서 filename, filename2, filename3...에 기재하면 된다. 5개의 파일을 하나로 묶어서 압축을 하여 .tar.gz을 만들어서 업로드해도 된다. 아마도 Illumina paired read의 제출 시에는 filename에 READS_1.fastq를, filename2에 READS_2.fastq를 지정했었을 것이다.


댓글 없음: