2018년 5월 16일 수요일

Genome assembly graph의 시각화 도구 "Bandage"

이틀 전에 Ryan R. Wick의 hybrid assembler인 Unicycler를 소개한 바 있다(원문 링크). Wick는 이보다 앞서서 genome assembly graph를 시각적으로 표현하는 소프트웨어를 먼저 개발하여 발표하였었다. Bandage는 운동선수들이 몸에 칭칭 감는 붕대 혹은 반창고를 연상시킨다. 실제 표현되는 결과물이 이를 닮았다. 하지만 Bandage는 논문 초록에 의하면 Bioinformatic Application for Navigating De novo Assembly Graphs Easily의 약자라고 한다.
Bandage: interactive visualization of de novo genome assemblies. Bioinformatics. 2015 Oct 15;31(20):3350-2 PubMed GitHub Documentation
처음에는 리눅스에 설치하고자 하였으나 Qt 5 등 prerequisite가 많아서 윈도우에 깔아버렸다. 우분투라면 좀 더 편하게 설치가 가능했었을 것 같다. 논문에서 소개한 그림을 보자.

PMC full text: Bioinformatics. 2015 Oct 15; 31(20): 3350–3352.

다음 그림은 Unicycler로 조립한 어떤 장내 미생물의 유전체를 Bandage에서 그려본 것이다. 이 결과물은 --mod bold 옵션을 주어서 조립한 것이라 매우 단순하고 완성도가 높은 구조를 보여준다. 대신 misassembly의 가능성은 더 높다고 볼 수 있다.


예전에는 유전체 조립 결과물이라 하면 FASTA 파일로 표현된 contig 혹은 scaffold 서열을 전부로 생각했었다. 그러나 Velvet, SPAdes, Trinity, MEGAHIT 등 많은 assembler들이 그래프 형식으로 표현된 결과물을 같이 제공한다. Unicycler에서는 GFA format의 결과를 제공한다. Bandage가 지원하는 입력 파일을 알아보자.
Bandage currently supports loading assembly graphs in the LastGraph format (used by Velvet), the FASTG format (used by SPAdes and MEGAHIT), the Trinity.fasta format (used by Trinity), the ASQG format (used by SGA and StriDe), and the GFA format (used by ABySS and other programs). If you are using IDBA, check out this tool for converting an IDBA graph into GFA format. See assembler differences for more information. (출처 링크)
일루미나와 PacBio 시퀀싱 결과를 나름대로 이용하여 완성한 미생물 유전체 정보를 여럿 등록하고 논문으로 이미 발표하였었는데, Unicycler와 Bandage를 뒤늦게 접하게 되니 이들을 재평가하고 싶은 욕망이 부글부글 끓어오른다. 그렇기 때문에 sequencing raw data를 SRA에 등록하여 공개하는 것이 중요한 것이다.

SRA에 제출한 그대로의 long read raw data, 즉 HDF5 파일(.h5)을 그대로 다운로드하는 것은 아직 불가능한 것 같다. 오직 fastq-dump로만 파일을 받아야 하기 때문이다. .h5 파일이 있으면 일부 프로그램에서 이를 활용할 수 있지만 fastq/fasta로만 받으면 사용의 폭이 약간 좁아진다. 물론 내가 철저히 조사하지 않고 오해를 하고 있는지도 모르겠다.

지난 며칠 동안 조사하고 궁리한 것은 (주)MDxK로부터 이번 월말에 개최하는 PacBio User Group Meeting에서 발표를 의뢰하였기 때문이다. 이렇게 이따금씩 발표 준비를 하면서 그동안 내가 경험한 것을 정리하고 최신 동향을 조사하는 좋은 기회가 된다.


댓글 없음: