2019년 11월 29일 금요일

MetaWRAP - a flexible pipeline for genome-resolved metagenomic data analysis

Shotgun sequencing을 이용한 메타게놈 연구가 이렇게까지 발전할 줄은 몰랐다. 내가 이 분야에 관심을 갖게 된 것은 2015년쯤 충북대학교 미생물학과의 이성근 교수의 제안을 통해서였다. 초창기 연구자료를 교환하고 약간 들여다본 것 이상으로는 진도가 나가질 않아서 논문 형태로 업적을 만들어내거나 하지는 못했었다. 지금 검색을 해 보니 "Genomic and metatranscriptomic analyses of carbon remineralization in an Antarctic polynya"라는 논문으로 Microbiome(링크)에 출간이 되었다. 저자 중에 낯익은 사람이 많아서 반가운 느낌이다.

당시에 참고했던 논문은 이것이었다. 그때로서는 아마 가장 앞선 방법이었을 것이다.

Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes. 
Albertsen M Hugenholtz P Skarshewski A Nielsen K Tyson G Nielsen P
Nature Biotechnology 2013 vol: 31 (6) pp: 533-538 PubMed

활성슬러지 생물반응기로부터 DNA 추출 조건을 약간 다르게 하여(hot phenol을 쓴 것과 그렇지 않은 것) 얻은 샘플에 대한 deep sequencing을 한다는 것이 이 논문에서 사용한 핵심 기법이었던 것으로 기억한다. Binning 과정부터는 슬슬 수작업 비슷한 것이 들어가기 시작하여 끈기있게 그 과정을 끝까지 따라서 해 보지는 못했었다.

그 이후로 실험 설계부터 제대로 된 shotgun metagenomics를 할 기회는 없었다. Microcystis처럼 heterotrophic bacteria와 필연적으로 공유를 하는 미생물의 유전체를 해독하거나, 특별한 샘플을 다루다가 우연히 발견하게 된 microorganism contamination의 정체를 깊은 수준까지 밝혀보기 위하여 shotgun metagenomics적 방법을 조금 쓰게 되었다.

요즘은 인체 마이크로바이옴의 전성시대라는 것을 그 누구도 부인할 수 없다. 새롭게 실험을 디자인하여 샘플을 모으거나, 혹은 NIH Human Microbiome Project 또는 유럽의 MetaHIT 등에서 공개된 shotgun metagenome sequencing 결과를 가져다가 공들여 조립하여 MAG(metagenome-assembled genomes, 메타게놈 조립을 통해 만들어진 것이라서 실제 배양 가능한 균주가 분리되지 않은 것들이 대부분)를 만들었다는 논문이 종종 눈에 뜨이고는 한다. 그중에서 가장 최근의 연구 성과는 아마 다음의 것으로 생각된다. 현재는 bioRxiv에만 올라 있지만 조만간 major journal에서 출간될 것으로 믿는다. 화려한 저자 목록을 보라. 다 이 분야에서 대단한 지명도를 갖고 있는 사람들이 아닌가(밑줄 친 저자는 최소한 내가 논문이나 소프트웨어를 통해 알고 있는 사람들)? 더군다나 Philip Hugenholtz는 위에 언급한 논문에서도 저자로 참여하였다.

A unified sequence catalogue of over 280,000 genomes obtained from the human gut microbiome.
Alexandre Almeida, Stephen Nayfach, Miguel Boland, Francesco Strozzi, Martin Beracochea, Zhou Jason Shi, Katherine S. Pollard, Donovan H. Parks, Philip Hugenholtz,  Nicola Segata,  Nikos C. Kyrpides, Robert D. Finn
doi: https://doi.org/10.1101/762682

이 논문의 저자 Nayfach와 Kyrpides는 국외 학회에 가서 본 일이 있다. "만나본 적이 있었다'라고 쓰려면 최소한 인사라도 하고 악수라도 해 봤어야 한다^^ 그렇게 말할 수 있는 외국인 과학자는 몇 명 되지 않는다.

인체 장내 마이크로바이옴에서 유래한 유전자 카탈로그는 Integrated Gene Catalog(IGC, 논문 링크)라는 것이 알려져 있다. 그러나 이 자원은 유전자 중심이라는 것이 한계이다. 이번 bioRxiv 논문에서는 유전체와 단백질 서열을 총망라했다는 것이 핵심이다. Unified Human Gastrointestinal Genome (UHGG) collection에서는 무려 286,997개의 유전체를 확보하였으며 여기에서 유래한 Unified Human Gastrointestinal Protein (UHGP) catalogue에서는 6억 2500만개의 단백질을 포함한다. 이는 IGC가 수록한 단백질의 두 배가 넘는 분량이다.

오늘 올리는 글의 제목인 metaWRAP(PubMedGitHub)은 MAG를 만들 때 필수적인 프로그램들의 실행을 편하게 할 수 있도록 도와주는 wrapper script이다. Robert D. Finn의 2019년 Nature 논문 "A new genomic blueprint of the human gut microbiota(링크)"의 일부분을 잠깐 살펴보면 metaWRAP이 어디에 쓰이는 것인지 감을 잡을 수 있다.


MetaWRAP은 Microbiome이라는 저널에 실렸었다. 이 저널에는 좋은 방법론이 종종 소개되고 있어서 참조하기에 아주 좋다. 특히 Unicycler를 사용하여 ONT nanopore long read와 Illumina를 잘 조합한 미생물 유전체 해독 방법 논문을 최근에 흥미롭게 읽었었다. 언제 기회가 된다면 이에 관해서 포스팅을 하고 싶다.

오늘 소개한 첫번째 논문은 무려 6년 전에 나온 것이다. 당시에는 bioconda라는 것이 나오기도 전이다. 이에 비하면 metaWRAP은 얼마나 편리한가? 프로그램의 설치와 관리 및 활용법 문서가 인터넷을 통해 체계적으로 보급되고 있어서 이제는 몰라서 못한다는 말은 하기 어려운 시대가 되었다.

"이제 해 볼 만하다"

댓글 없음: