2018년 4월 6일 금요일

MetaWRAP - whole metagenome shotgun sequencing 분석을 위한 파이프라인

Whole genome shotgun(WGS) sequencing의 두번째 단어인 genome을 metagenome으로 바꾸면 whole metagenom(ic) shotgun(WMS) sequencing이 된다. 요즘 유행하는 어법을 따른다면 좀 더 인기있는 단어인 microbiome을 쓰고 싶은 욕구가 생긴다. 내가 알기로는 원래 microbiome에는 '집합적인 게놈'이란 의미가 없었는데 약간 변질이 되고 말았다. 하지만 '활성 슬러지 메타게놈'이라는 표현은 있지만 '활성 슬러지 마이크로바이옴'이라고는 아직 쓰지 않는 것 같다.

Microbiome이라는 용어의 유래에 대해서는 microBEnet에 조나단 아이센이 2015년에 올린 글("What does the term microbiome mean? And where did it come from? A bit of a surprise ..", 링크)을 읽어보라.

나는 20년 가까이 (bacterial) isolate genome의 분석에만 집중해 왔다. 16S rRNA 기반의 메타게놈 연구가 주변에서 시작될 때 여기에까지 활동 영역을 미리 넓히지 못한 것이 늘 아쉽다. 자기 데이터가 없는 상황에서는 아무리 공부를 하려 해도  진도가 잘 나가지 않는다. 그러는 사이에 어제 소개했듯이 Qiime 2가 나오고 말았다.

2년쯤 전에 충북대학교 이성근 교수를 통해서 WGS sequencing analysis를 해보는 것이 어떻냐는 제안을 받고 관심을 갖고는 있었다. 당시 소개받은 논문은 Mads Albertsen(웹사이트 링크)가 제1저자였던 "Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes(Nature Biotechnology 2013 PubMed)"였다. 이 연구에서의 핵심 개념은 마치 마이크로어레이 실험처럼 변동을 준 조건과 주지 않은 조건(여기에서는 hot phenol) 활성 슬러지를 구성하는 미생물 전체 유전체를 분리하여 조립을 한 뒤 4가지의 데이터(tetranucleotide frequency, %GC, length, essential single copy gene)를 이용하여 scaffold를 시각화하고, 이를 잘 골라내어 개별 유전체를 구성한다는 것이었다. 저작권 문제로 논문의 그림을 여기에 직접 싣지는 못하겠다. 일단 설명은 이렇게 간결하게 하였지만 supplementary material을 받아서 한번씩 따라하는 것도 쉽지 않다. 솔직히 고백하건대 assembly 이후 R을 집중적으로 사용하여 그림을 그리고 테두리를 쳐서 bin을 골라내는 후반부 작업까지는 아직 진도가 나가지 않았다.

현재 덴마트 Aalbog University에 재직하고 있는 Albertson의 웹사이트를 방문하니 community 분석을 위한 훌륭한 R 패키지를 개발하여 보급하고 있었다(링크).

WMS sequence analysis에는 아직 '이것이 진리이다!'라고 할만한 독점적인 도구가 없다. 게다가 결과의 시각화 역시 일반 연구자에게는 어려운 문제이다. Metagenome에서 건져낸 개별 유전체를 시각화하기 좋은 방법이 없을까? 작년 초부터 다루기 시작한 광합성 세균 Microcystis의 미생물 콘소시엄을 시퀀싱한 자료를 재건하는 것이 나의 직면한 과제이기 때문이다. 구글을 뒤지다가 bioXriv에 소개된 MetaWRAP(논문, GitHub)이 눈에 뜨였다. 논문의 제목은 "MetaWRP - a flexible pipeline for genome-resolved metagenomic data analysis"이다. GitHub에 그림이 있으니 소개하기에도 부담이 없다. 튜토리얼을 둘러본다면 전체적인 흐름이 어떻게 되는지를 파악할 수 있을 것이다.

출처: https://github.com/bxlab/metaWRAP
출처: https://github.com/bxlab/metaWRAP/blob/master/Usage_tutorial.md

MetaWRAP은 raw sequencing read에서 출발하여 metagenomic bin 구성 및 그 분석까지를 수행할 수 있는 파이프라인이다. 널리 쓰이는 소프트웨어와 라이브러리 약 150 종을 묶어서 Biocond 패키지로 배포하므로 설치가 매우 쉽다. 가장 핵심이라 할 수 있는 binning에서는 metaBAT2, MaxBin2 및 CONCOCT를 사용한다. 마침 Bioconda에 관심을 갖기 시작하였는데 이를 이용한 유용한 도구가 줄줄이 나타났으니(어제 소개한 Qiime 2 역시 Bioconda 패키지로 배포) 반갑지 않을 수 없다. 프로그램 설치를 마치고 지금은 데이터베이스를 받는 중이다. Configuration이 끝나면 실제 데이터를 가지고 즐거운 탐색을 해 봐야 되겠다.

댓글 없음: