2014년 6월 13일 금요일

[NCBI] Gapped Format for Genome Submissions

참조 사이트: http://www.ncbi.nlm.nih.gov/genbank/wgs_gapped

전에는 WGS(whole-genome assembly)를 NCBI에 제출하려면 N을 포함하지 않은 contig sequence가 있어야 했고, 만일 scaffold 형태의 데이터라면 별도의 AGP 파일을 포함시켜야 했다. 따라서 CLC Genomics Assembly 등에서 만들어낸 scaffold sequence를 그대로 등록하지 못했고, N(...NN)을 경계로 서열을 분리하여 contig 서열로 분해한 뒤 올려야만 했다. 이를 위해서 별도의 Perl 스크립트를 만들어야만 했다.

AGP 파일을 동반하지 않는 경우에는 gap 크기의 정보가 사라지고 만다. Scaffold sequence를 파싱하여 AGP 파일을 만드는 것은 또 얼마나 성가신 일이었던가!

오늘 오랜만에 미생물 WGS data 등록을 위해 NCBI 웹사이트에서 관련 가이드 문서를 찾아 읽어보았다. 이제는 AGP 파일 없이도 gapped assembly를 제출핳 수 있게 되었다. NCBI 내부에서도 현재 만들어지는 데이터의 현실을 면밀히 검토하고 많은 고민을 거쳐서 이렇게 차츰 진보되는 모습을 보이는 것을 보면 비슷한 기능을 하는 유전체 정보센터의 일원으로서 참으로 부럽기도 하다.

염기서열 데이터 내에서 N(...NN)으로 표시된 gap은 무엇을 의미하는가? 다음의 두 가지 사례가 있다.


  • estimated length: gap size의 추정이 가능한 경우. 
  • unknown length
Gap은 ambiguous nucleotide와 구별되어야 한다. 예를 들어 서열 내에 N이 하나만 있다면 이는 gap이라기보다 ambiguous nucleotide일 것이다. 물론 read alignment를 직접 보지 않는다면 판별하기 곤란하다. 5N~10N 혹은 이보다 작은 수의 N이 연속하여 존재한다면 순수한 gap이 아니라 ambiguous nucleotide로 간주하는 것이 타당하다.


tbl2asn 버전 22.9부터는 이러한 gapped submission을 생성할 수 있다. 내 시스템에 설치된 버전을 확인해 보자.

$ tbl2asn --help | more

tbl2asn 23.0   arguments:

  -p  Path to Files [String]  Optional
  -r  Path for Results [String]  Optional
  ....


그러면 가장 흔할 것으로 예상되는 tbl2asn 활용 사례를 들어보자.

tbl2asn -p . -t submitter.sbt -M n -Z discrep -a r5k -l paired-ends -j "[organism=Acinetobacter sp.] [strain=HR7] [gcode=11]"

-a a#k의 의미는 무엇인가? # 위치에 있는 숫자 이상의 N이 연속하여 있으면 estimated gap, 그보다 작으면 ambiguous base라는 뜻이다. -l 뒤에 오는 정보는 gap의 길이를 추정하는데 사용하는 evidence를 의미한다. NGS의 paired end 혹은 mate pair를 쓰는 경우 -l paired-ends라고 옵션을 주면 된다.

[잡담] 윈도우 환경에서는 tbl2asn이 제대로 돌지 않는것 같다. 도대체 이유를 모르겠다!

댓글 없음: