2020년 11월 23일 월요일

그래프 기반의 pangenome 군집 도구, panaroo와 bacterial GWAS

Roary('the pan genome pipeline)는 늘 쓰는 도구이고, 새로운 시도를 해 보고 싶어서 pan-genome-wide association study용 도구인 Scoary를 쓰기 위해 프로그램 설치를 하고 이러저러한 궁리를 해 보다가 Panaroo라는 이름의 소프트웨어를 접하였다. Sanger Institute에서 병원체 게놈 연구를 리드하던 Julian Parkhill이 저자 중 한 사람이니 믿고 봐야 할 논문이 되겠다.

Producing polished prokaryotic pangenomes with the Panaroo pipeline. Genome Biology (2020) 21:180 https://doi.org/10.1186/s13059-020-02090-4

출처: https://github.com/gtonkinhill/panaroo Panaroo는 캥거루를 닮은 상상의 동물?
  
Pan genome을 구성하는 방법은 이론적으로는 비교적 단순하지만 실제 생활에서는 그렇지 않다. Ortholog clustering이라는 것은 결국 유전자 예측의 정확성에 크게 의존하는데, genome assembly의 완성도라든가 오염 여부, gene family 등의 상황이 이를 까다롭게 만들기 때문이다. 논문에서는 'error introduced during the annotation of prokaroytic genome assemblies'라고 하였지만 더욱 근본적인 이유는 상위 단계인 genome assembly의 불완전성에서 오는 것이라고 보는 것이 맞다. PacBio와 ONT 기법이 널리 쓰이면서 세균의 complete genome sequence를 아주 쉽게 얻을 수 있는 세상이 되었지만 세부적으로 들여다보면 그렇게 정확하지만도 않다.

Panaroo의 기존 작동 모드는 conservative이다. contamination과 error에 의한 영향을 줄이는 실행 모드라 한다. 만약 매우 드문 plasmid 유래 서열을 다루어야 한다면, 이것이 contamination으로 오인되어 분석 대상에서 제외되는 것을 방지하기 위해 sensitive mode로 실행할 것을 권장한다.

실행 방식과 출력물의 이름은 Roary의 것을 많이 닮았다. Roary가 등장하기 이전에도 ortholog clustering 용도의 소프트웨어는 적지 않게 있었다. 그러나 Bacterial pan genome analysis의 대중화에 Roary가 매우 큰 역할을 했음을 누구나 인정할 것이다. 서두에서 소개한 Scoary 역시 Roary와 이름이 비슷함을 물론, Roary의 입력 파일을 그대로 이용한다.

Panaroo의 결과물은 pangenome association analysis용 도구인 Pyseer의 입력물로도 쓸 수 있다고 한다. Pyseer가 발표된 Bioinformatics 2018년도 논문에서는 Scoary(Genome Biology 2016)를 전혀 언급하지 않았다. 미처 몰랐을 것 같지는 않고, 경쟁 관계에 있는 그룹이라 의도적으로 인용하지 않은 것이라는 내멋대로의 상상을 해 보았다. Scoary에서는 accessory gene을 주요 대상으로 하였다는 점에서 Pyseer는 이를 자기네가 만든 도구와 동등하지 않다고 여긴 것 같다. 하지만 Scoary의 최신 버전에서는 VCF를 입력물로 사용함으로써 SNP도 고려하게 되었다.

나의 상상이 사실에 기반한 것일까? Pyseer는 k-mer 기반의 GWAS 소프트웨어인 SEER(Nature Communications 2016 링크)을 python으로 구현한 것이니 같은 연도에 논문이 나온 Scoary의 존재를 미처 알지 못했을 것 같다. 따라서 나의 상상은 억측이었다. SEER는 sequence element enrichment analysis를 의미한다.

Genome sample은 제한되어 있는데 갑자기 사용해야 할 소프트웨어의 후보가 많아지고 많았다. 본격적인 분석을 하기 전에 pyseer의 제1 및 교신 저자인 John A. Lees가 소개한 bacterial GWAS 입문용 자료인 'The background of bacterial GWAS(figshare 링크)'를 읽어보자.

댓글 없음: