2017년 2월 21일 화요일

점점 진화하는 hybrid genome assembly

융합, 복합, 차세대(창조?) 등등의 단어를 나열하지 않으면 자기의 기술 분야에서 눈에 뜨이기가 점점 어려운 세상이 되었다. 실체는 갖추지도 못한 상태에서 어떤 키워드를 선점하느냐가 중요한 전략으로 여겨지지 않던가?

PacBio의 long read 시퀀싱 기법을 사용하면 SMRT cell 하나에서 만들어지는 데이터만으로 충분히 세균의 유전체를 완성 수준으로 구성하는 것이 가능하다. 그런데 실제 샘플에 따라서 갖가지 사정이 존재하며, 아직까지도 일루미나 데이터가 조력자 이상의 훌륭한 동반자 역할을 하고 있다. 최근에 국내 담수호에서 분리된 남세균의 유전체 시퀀싱을 하면서 지금까지 경험하지 못한 여러 일들을 겪게 되었다. 이 과정을 통해서 배운 것도 많다.

시퀀싱 대상이 된 남세균은 기본적으로 axenic condition이 아니었다. 즉, 여러 세균과 같이 공생하는 일종의 작은 집단을 이룬다. 어떻게 보면 metagenome sequencing과 매우 유사한 상황이었다. MiSeq sequencing을 하여 k-mer abundance에 의한 필터링을 해 보았지만 결과의 개선 정도는 높지 않았다. 반면 PacBio data에 의한 nonhybrid assembly가 비교적 좋은 결과를 내었다. 아마도 preassembly 과정에서 적은 빈도로 존재하는 read가 상당히 제거된 것으로 풀이된다. SMRT analysis, Canu 그리고 Falcon assembly 중에서 Falcon의 결과가 가장 우수하였으므로 이를 대상으로 교정 및 약간의 후처리 작업을 통해서 대여섯개 수준의 서열을 얻어낼 수 있었다. 사용한 후처리 도구는 CLC Genomics Workbench("Join Contigs"), PB-Jelly, 그리고 SMRT analysis의 일부 기능(Quiver & AHA)이다. 마지막으로 Pilon을 사용한 오류 교정도 실시하였다.

De novo assembly에서는 "이 방법만 따르면 돼!"하고 외칠만한 최고의 방법은 존재하지 않는다고 생각한다. 샘플의 상황에 따라(사실상 혼합 배양체 상태인 남세균의 경우도 한 사례이다), 그리고 적용한 sequencing platform에 따라서 각기 다른 방식으로 최선의 결과를 얻을 따름이다. 새로운 소프트웨어가 자꾸 나오는 것도 사용자 입장에서는 별로 반가운 일은 아니다. 관련 자료를 찾다가 작년 여름에 Nucl. Acids Res.에 출판된 "Contiguous and accurate de novo assembly of metazoan genomes with modest long read coverage"라는 논문을 접하게 되었다(링크). Hybrid와 nonhybrid 방식은 sequencing coverage에 따라서 assembly의 완성도가 다르게 나타난다는 것이 요지이며, long read sequencing을 위한 효율적인 DNA 분리 방법도 제시하고 있다는 점이 특징이다. 연구 대상 생명체는 초파리였다. 이 논문에는 다양한 hybrid assembler를 평가한 끝에 DBG2OLC를 선택했다고 하였다. DBG는 de Bruijn graph, OLC은 overlap-layout-consensus를 의미한다. 즉 short read를 이용한 조립법과 전통적인 조립법을 연결하는 가교 역할을 하겠다는 의지를 보이는 작명이 아닌가 싶다.


흔히 hybrid assembler라고 하면 일루미나 등의 NGS(=2세대) read를 error-rich long read(3GS)에 정렬하여 오류를 정정하는 것으로부터 시작하는데, DBG2OLC에서는 NGS 유래 de Bruijn graph를 long read 위에 매핑하는 것이 출발점이다. 즉 read-to-read mapping이 아니라 contig-to-read가 시작점이 된다. 논문의 그림을 무단으로 가져다가 블로그에 실을 수는 없으니 그림 1의 링크만 제시한다.

그러면 염기 수준의 오류 정정은 어느 단계에서 이루어지는가? long read들을 모아서 multiple sequence alignment를 하면서 중첩 정보를 직접 이용하여 염기의 오류가 교정된다고 한다. 이러한 방법을 통하여 기존의 도구에 비해서 실행에 소요되는 시간이 대폭 줄어들어들게 되었다.

지금은 내가 가장 즐겨 사용하는 hybrid assembler인 SPAdes(v3.10.0)으로 남세균 시퀀싱 데이터를 처리해 보는 중이다. 결과가 나오면 검토한 다음 새로운 도구인 DBG2OLC

댓글 없음: