2020년 7월 1일 수요일

Long read용 de novo assembler는 왜 이렇게 많은지...

일루미나 데이터의 조립에는 전적으로 CLC Genomics Workbench에 의존하면서 가끔 SPAdes를 사용하는데 반하여 long read sequencing data의 조립용 도구는 종류가 더 많아서 선택이 어렵다. 현재까지는 Canu 2.0을 신뢰하는 편이고 UniCycler도 비슷한 정도로 사용한다. UniCycler는 hybrid assembler이지만, long read만 제공하여 조립을 할 수도 있다. 내부적으로 돌아가는 것은 miniasm/racon이다. UniCycler를 miniasm/racon용 wrapper로 사용하려는 생각을 며칠 전부터 하고 있다.

F1000Research에 UniCycler의 개발자인 Ryan R. Wick이 여러 long read assembler를 prokaryote genome 조립용으로 벤치마킹한 논문을 실었다. 여기에서는 무려 일곱 가지의 de novo assembler -  Canu, Flye, Miniasm/Minipolish, NECAT, Raven, Redbean and Shasta - 를 비교하였다.

Benchmarking of long-read assemblers for prokaryote whole genome sequencing [version 2; peer review: 4 approved]

F1000Research는 일종의 개방형 저널로서 투고와 리뷰 과정이 전부 공개되는 것으로 알고 있다. 이러한 저널에 IF를 붙이는 것이 옳은지는 모르겠으나 2019년도 IF는 2.64이다. 연구뿐만이 아니라 의견이나 네거티브 데이터에 관한 논문도 받는다니 여러모로 혁신적인 학술지라 할 수 있겠다.

Ryan R. Wick의 이번 논문에 의하면, Flye와 Miniasm/Minipolish에 가장 높은 점수를 주었다고 한다. 하지만 조립과 관련된 모든 수치를 만족시키는 최고의 assembler는 없었다고 한다. 상황이 이러하니 canu만 편식할 것이 아니라 flye에도 관심을 갖지 아니할 수가 없다. Flye라는 assembler가 나왔다는 것을 작년쯤 알게 되었을 때에는 '무슨 이름이 이렇지?'하고 그냥 지나갔는데, 논문은 무려 Nature Biotechnology(2019)에 실렸다! 사람이란 참 간사해서 논문 정보에 눈히 확 뜨이면서 비로소 관심을 더 갖게 되었다... 논문의 저자 Mikhail Kolmogorov, Jeffrey Yuan, Yu Lin & Pavel A. Pevzner 중 교신저자는 바로 그 유명한 Pevzner였다. 위키피디아를 찾아보니 Pevzner의 지도교수는 Michael Waterman이었다. 유명한 사람은 다 나오는구나...

Assembly of long, error-prone reads using repeat graphs (Flye 논문)

Conda 환경에 설치를 해 놓은 뒤 테스트할 궁리를 하는 중이다. 옵션 중에서 특히 흥미를 끄는 것은 --plasmids와 --asm-coverage-option이다. 거대 유전체를 조립할 때에는 메모리 사용량을 줄이기 위하여 longest read의 subset을 선택하여 사용하는 것이 좋은데, 이때 쓰이는 것이 --asm-coverage-option이라 한다. 30x면 good initial contig를 만들 수 있고, 보통 40x 정도면 'good disjointig(unitig와 비슷한 용어인가?)'를 만드는데 충분하다고 한다. 하지만 최종 단계에서는 모든 read가 전부 다 쓰인다고 한다. 대단히 현명하다.

어떤 결과가 나올지 당장 테스트를 해 보고 싶은데 지금은 6개 샘플의 UniCycler(long reads only) 조립 중이라서 몇 시간은 더 기다려야 한다.

댓글 없음: