2018년 5월 14일 월요일

신개념의 hybrid assembler "Unicycler"

PacBio long read만을 이용한 (hierarchical) nonhybrid genome assembly가 대세라고 한다. 아니다! 이 진술은 틀렸다. 왜냐하면 ONT(Oxford Nanopore Technologies)의 기술로 생산되는 long read도 있기 때문이다. Long read sequence data를 이용한 nonhybrid assembly tool을 서로 비교하는 논문까지 나왔다.
Comprehensive evaluation of non-hybrid genome assembly tools for third-generation PacBio long-read sequence data. Brief Bioinform 2017 PubMed
그럼에도 불구하고 short read와 long read를 함께 사용하는 hybrid assembler에서도 새로운 시도가 이어지고 있다. 세균 유전체 해독 전용 도구임에 유의해야 한다. 교신저자를 겸한 제1저자는 호주 멜버른 대학의 Ryan R. Wick이다.
Unicycler: resolving bacterial genome assemblies from short and long sequencing reads. PLoS Comput Biol 2017. PubMed GitHub
출처: https://github.com/rrwick/Unicycler
 Unicycler라고 하면 '외발자전거를 타는 사람' 정도로 해석하면 될 것이다. Hybrid assembly의 장점은 무엇인가? Short read로부터는 정확성을, long read로부터는 structural resolving power를 이용하자는 것이다. 일반적으로 hybrid assembler라고 하면 long read에 short read를 매핑하는 과정을 먼저 실시하여 long read의 error를 줄인 뒤 일상적인 방법으로 조립을 하는 long-read-first approach를 떠올린다. 하지만 Unicycler는 short-read-first approach를 택하였다. Short/long read는 물론 hybrid assembly도 잘 해주는 SPAdes를 이용하여 먼저 short read로부터 contig를 얻는다. 각 contig에는 copy number를 할당한 뒤 bridging을 하여 graph 구조를 단순하게 만든 뒤, long read를 mapping하여 최적의 path를 찾아나가면서 이를 점차 병합해 나감으로써 완성 상태의 염색체 서열을 얻는다. 마지막으로는 Pilon을 이용하여 작은 레벨의 오류를 수정한다. 논문에 소개된 그림이 이 과정을 매우 심플하게 설명하고 있다. Short-read-first approach는 long read의 depth가 충분하지 않아도 된다는 장점이 있다.

출처: PubMed Central
설치도 아주 쉬웠다. BioConda를 이용하면 되기 때문이다. 사용자가 추가적으로 설치해야 하는 racon(Consensus module for raw de novo DNA assembly of long uncorrected reads) 역시 BioConda에서 제공한다. 몇 가지의 long read assembler와 manual join을 통해서 만든 genome assembly 결과 중 석연치 않은 것들을 가져다가 Unicycler로 테스트 조립을 시작하였다. 

지금까지 다루어 본 long read assembler 중에서는 Canu가 가장 쓰기에 편리하였었다. 그 다음은 SPAdes 정도? HGAP은 리포트도 충실하고 다 좋은데 실행 속도는 매우 느리다. 빨리 SMRT Link v5.x으로 업그레이드해야 하는데 아직도 SMRT analysis v2.3을 쓰고 있다. 만약 이번의 테스트 실행 결과가 잘 나와준다면, Unicycler도 사랑을 받게 될 것이다.

댓글 없음: