Nanopore sequencing read와 일루미나 자료를 함께 사용하여 박테리아의 유전체 염기서열을 완성 수준으로 조립하는 파이프라인 MicroPIPE에 대하여 공부를 해 보았다. 호주 Queensland 대학의 작품이다.
MicroPIPE: validating an end-to-end workflow for high-quality complete bacterial genome construction. BMC Genomics (2021) 22:474 DOI: 10.1186/s12864-021-07767-z GitHub
설치 및 활용이 손쉬워서 즐겨 사용하던 ZGA pipeline과는 규모 자체가 다르다. MicroPIPE는 Nextflow에서 개발되었으며 각종 dependency는 Singluarity contaner image로 제공된다. Nanopore read의 basecaller인 Guppy는 사용자가 직접 설치하는 것을 전제로 하였다. 왜냐하면 ONT software를 웹사이트에서 직접 다운로드하지 않고 제3자가 배포하는 것은 허용되지 않기 때문이다.
Windows용 Linux 하위 시스템을 만들어서 생명정보 분석용 프로그램을 여러 가지 방법으로 설치하였다. 바이너리 패키지를 가져다가 단순히 압축을 푼 것도 있고, pip로 설치한 것도 있으며, conda를 통해서 깐 것도 있다. 이를 'wsl export' 명령으로 내보내기를 하여 tar 파일을 만들었다고 하자. 이를 자유롭게 주변에 배포해도 되는가? 올해 몇 차례 시행한 미생물 유전체 분석 교육 워크숍을 위해 Ubuntu 20.04 focal fossa 기반의 배포를 만들어서 교육생에게 제공하였다. 사실 이 행위가 정말로 문제가 없는지 확인하려면, 배포에 포함한 모든 외부 프로그램이 GPL 3.0 또는 최소한 MIT license 정도로 제공되는지를 알아 보아야 한다.
MicroPIPE 논문의 그림 2에서는 파이프라인 개발을 위해 참조한 long read assembly를 간결하게 비교해 놓았다. 요로감염 대장균의 일종인 EC958(ST131의 reference)이 갖고 있는 염색체와 두 개의 플라스미드가 얼마나 정확하게 조립되었는지를 나타내었다. 웹사이트 화면을 캡쳐하여 이 블로그에 그림으로 올리고 싶었으나(종종 그렇게 해 왔으므로), 링크로 대체하였다.
EC958은 전세계적으로 널리 퍼진 다제내성 요로감염 대장균 O25b:H4-ST131의 대표 균주라 한다. 유전체 해독 결과 논문은 2014년 PLoS One(PubMed 링크)에 출판되었다. 이 논문과 MicroPIPE 논문의 교신 저자는 Scott A. Beatson으로 동일하다. University of Queensland의 부교수인 그는 Advanced Genome Informatics라는 대학원 강의를 주관하고 있으며, HAIviz(healthcare-associated infections visualization tool)을 개발하였다고 한다.
의외로 호주의 생명정보학자들에게 신세를 많이 지고 있다. Prokka, snippy, nullarbor 등의 개발자인 Torsten Seemann이 그렇고, Unicycler, Filtlong, Bandage, 그리고 이제는 유지 보수를 중단하였다고 선언한 'abandonware' porechop의 개발자 Ryan Wick이 그러하다. 이런 일방적인 관계 말고 내가 호주 생명과학자들과 직접적인 관련을 맺었던 일은 없는가? 단 한 건이 있다. 대장균 W 균주(ATCC 9637)의 유전체 해독을 내가 맡아서 했었다(PubMed 링크). 호주 쪽 파트너였던 Lars K. Nielsen 교수도 역시 University of Queensland의 교수이다. 이 일도 벌써 10년이 넘게 지난 과거가 되었다.
MicroPIPE 논문을 보다가 문득 long read/hybrid assembler의 성능을 비교한 논문이 무엇이 있는지 궁금하여 검색을 해 보았다. 이러한 부류의 논문이 너무나 많아서 옥석을 가리기가 쉽지는 않다. 예를 들어 Ryan Wick이 저자로 참여한 논문 Benchmarking of long-read assemblers for prokaryotic whole genome sequencing에서는 500개의 simulated read set과 120개의 real reads set을 8가지 assembler(Canu, Flye, Miniasm/Minipolish, NECAT, NextDenovo/NextPolish, Raven, Reabean 및 Shasta)에 적용하여 그 결과를 비교하였다. 또 다른 논문 Benchmarking hybrid assembly approaches for genomic analyses of bacterial pathogens using Illumina and Oxford Nanopre sequencing에서는 MaSuRCA, SPAdes 및 Unicycler를 비교하였다.
내가 즐겨 사용하는 long read assembler는 Canu, Unicycler, 그리고 Flye 정도이다. 요즘에는 Flye를 가장 많이 쓰는 것 같다. 소개한 논문은 각각 2019년과 2020년에 출판된 것이라서, 2022년 현재는 또 얼마나 많은 진보가 이루어졌을지 궁금하다. 새롭게 개발된 assembler를 한 번씩 찾아서 설치하고 테스트를 해 보는 것도 정말 품이 많이 드는 일이다. 예를 들자면 2021년 Cell Syst. 저널에는 Minimizer-space de Bruijn graphs: whole-genome assembly of long reads in minutes on a personal computer라는 논문이 실렸다. 여기에서 소개한 mdBG assembler('rust-mdbg', GitHub)의 성능을 보라.
A human genome is assembled in under 10 min using 8 cores and 10 GB RAM, and 60 Gbp of metagenome reads are assembled in 4 min using 1 GB RAM.
단일 박테리아 게놈을 조립하기 위해 쓰기에는 미안할 지경이다. 기술 발전이 이렇게 놀라우니 같은 저널에 Democratizing long-read genome assembly라는 코멘터리가 실릴 정도 아니겠는가.
내가 사용하는 assembler의 외연을 넓히고 싶어서 hybrid assembler인 MaSuRCA(2013년 논문, GitHub)를 설치해 보았다. MaSuRCA란 Maryland Super-Read Celera Assembler를 뜻한다. 즉 Celera Assembler를 계승하고 있는 것이다.
병원성 박테리아의 genomics 관련 연구를 하면서도 내가 주도를 하지 못하니 주변에서 요청하는 것을 도와주는 식으로만 대응하게 되고 결과적으로 깊이 있는 연구가 되지 못한다. 대장균, Klebsiella pneumoniae, Acinetobacter baumanii, SARS-CoV-2, Streptococcus pneumoniae... 이제는 결핵균까지! 마치 메뚜기처럼 한 species에 대해서 논문 한 편 겨우 쓰고는 인건비(과제) 상황에 따라서 다음 주제로 건너뛰고는 만다. 이래서는 안 되는데...
댓글 없음:
댓글 쓰기