bioBakery 공부하기

Homebrew니 Linuxbrew니 하는 '양조장' 시리즈를 거쳐서 이제는 빵집인가! 2월 말부터 내가 푹 빠져있는 bioBakery는 mata'omics, 즉 metagenomics와 metatranscriptomics 분석을 위한 종합 환경으로서 그 규모가 매우 방대하다. 하바드 대학교 공중보건대학 생물통계학과의 Curtis Huttenhower(1981년생) 그룹이 주축이 되어 개발 및 배포를 진행하고 있다. 메타게놈의 계통분석학적 분석 도구인 MetaPhlAn도 여기에 포함된다. MetaPhlAn의 개발자 Nicola Segata(1982년생)는 현재 이탈리아 University of Trento Laboratory of Computational Metagenomics를 이끄는 부교수인데, Huttenhower 연구실에서 Post doc 연수를 하였다. 다들 젊구나!

bioBakery: a meta'omic analysis environment. Bioinformatics, 34(7), 2018, 1235-1237

Nucleic Acids Research 원문 링크
Bitbucket https://bitbucket.org/biobakery/biobakery/wiki/Home
GitHub https://github.com/biobakery/biobakery
The bioBakery help forum https://forum.biobakery.org/

설치부터 테스트 자료 분석에 이르기까지 들인 공은 MetAmos 못지 않았다. 그러나 기능, 사용자 지원, 포럼의 활성화 등을 따진다면 당연히 bioBakery가 우세하다고 생각한다.

bioBaker는 다양한 형태로 배포되고 있어서 초심자가 익숙해지기에는 약간 어려움이 따른다. Conda package로 제공되는 workflows는 --bypass-strain-profiling을 설정하지 않으면 아직까지 해결하지 못한 에러가 발생하고, Vagrant 가상 머신도 상당히 곤혹스러우며(이것 때문에 mercurial과 vagrant를 설치하고 이해하느라 아주 애를 먹었음, 참조 사이트), 결국 최종적으로 택한 환경은 아마존웹서비스(AWS)의 미국 동부 리전에 생성한 EC2 인스턴스였다. 이것도 사실은 완벽한 환경은 아니었다. samtools와 bcftools를 0.1.19로 다시 설치해야 했으며(strainphlan 실행에 필요), 최종적으로 hclust2도 다시 깔아야만 했다. 뿐만 아니라 R과 vegan pacakge도 설치해야 한다. 아마존웹서비스(AWS) EC2 인스턴스로 즉시 설치할 수 있는 머신 이미지(AMI)를 제공한다고 해서 여기에 모든 것이 다 깔려 있을 것이라고 기대하지는 않는 것이 좋겠다. bioBakery workflows를 구동하기 위한 prerequisite에 대한 것은 여기를 참조해 보라.

다음은 metagenome profiling workflow의 설명 그림이다.

출처 링크. HUMAnN2과 StrainPhlAn 등 개별 모듈의 기능을 공부하는 데에도 많은 노력을 기울여야 한다.

biobakery_workflows 16s_vis 명령을 이용하여 16S rRNA 서열 기반의 메타게놈 분석을 실시하였다고 가정하자. 그러면 텍스트 파일로 결과가 만들어진다. 이를 도표와 함께 최종 리포트를 만들고자 한다면, biobakery_workflows 16s_vis 명령을 실행해야 된다. 그런데 리포트에는 일부 그림이 제대로 표시되지 않았다. Standard error나 anadama.log 파일을 봐서는 무엇이 문제인지 알기가 어렵다. 그래서 visualization에 필요한 사전 요구 사항이 무엇인지 점검해 보았다. NumPy, SciPy, Matplotlib... 당연히 알아서 설치된 것이 아닌가? 그런데 어쩐지 hclust2가 찜찜해 보인다. '$ conda install -c biobakery hclust2'로 설치를 하라는데 그런 패키지는 없다고 한다. hclust2를 biobakery에서 배포할 이유는 없다. 채널 정보가 미심쩍다고 생각하여 '$ conda install -c bioconda hclust2'를 실행하니 외견상 별 문제는 없었다. 다시 biobakery_workflows 16s_vis를 실행하니 약간의 경고 메시지는 나오지만 정상적인 PDF 리포트가 만들어졌음을 확인하였다. 16S rRNA amplicon sequencing을 이용한 taxonomic profiling data의 분석 최종 리포트 사례는 여기를 참고하라. bioBakery를 이용하여 high-impact journal에 실린 최근 논문을 한번 찾아보았다.

Multi-omics of the gut microbial ecosystem in inflammatory bowel diseases. Nature 569, 655-622(201) 원문 링크

샘플 데이터의 분석을 통해 나온 리포트를 보면서 느낀 점은, 과연 QIIME이나 Mothur에 비하여 무엇이 못할까 하는 점이다. 두 애플리케이션의 성능 비교는 해묵은 논쟁거리이기도 하다. Shotgun metagenome의 분석이라면 당연히 bioBakery가 더 우위에 있을 것이라고 생각한다.

[예] Comparison of Mothur and QIIME for the Analysis of Rumen Microbiota Composition Based on 16S rRNA Amplicon Sequences. Front. Microbiol., 13 December 2018 링크

특히 reference DB의 설치가 제대로 되었는지를 잘 점검해야 실행에 문제가 없을 것이다. 일례로써 metaphlan2_env와 workflows_env에서 각각 필요로하는 MetaPhlAn DB의 위치가 서로 다르다. 이는 전혀 예상치 못했던 일이다.

가장 바람직하게는 로컬 서버에 conda package로 설치한 biobakery_workflows를 성공적으로 돌리는 것이지만 아직까지 잘 되지 않는다.

정해영의 블로그 - JEONG Haeyoung's blog

2020년 3월 9일 월요일

bioBakery 공부하기

댓글 없음:

즐겨 찾는 곳

프로필