2019년 2월 26일 화요일

Fast and flexible bacterial genomic epidemiology with PopPUNK

Genomic epidemology에 관한 최신 논문을 찾아보다가 올해 1월 24일 Genome Research에 발표된 새로운 소프트웨어 도구인  PopPUNK(Population Partitioning Using Nucleotide K-mers)를 발견하였다.
Lees JA, Harris SR, Tonkin-Hill G, Gladstone RA, Lo SW, Weiser JN, Corander J, Bentley SD, Croucher NJ. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research 29:1-13 (2019). doi:10.1101/gr.241455.118
출처: https://poppunk.readthedocs.io/en/latest/index.html

병원체 감시(pathogen surveillance)를 위한 유전 데이터를 분석하는 방법으로는 MLST(multilocus sequence typing)가 전통적으로 널리 쓰인다. 유사한 MLST sequence type(ST)을 갖는 균주끼리 minimum-spanning tree를 만들어서 eBURST로 시각화하는 방법이 매우 보편적인데, 몇 개의 housekeeping gene만을 대상으로 하기 때문에 해상도에는 한계가 있다. 이제는 유전체 시퀀싱을 매우 염가에 할 수 있으므로, cgMLST(core genome MLST) 또는 wgMLST(while-genome MLST)를 활용하는 방법도 바람직하다. 그러나 결국 sequence alignment라는 시간이 오래 걸리는 계산을 피할 수 없고, 유전자에 대한 정보가 필요하며, 새로운 샘플이 약간만 추가되더라도 분석을 처음부터 다시 해야 하므로 스케일업이 매우 어렵다.

PopPUNK는 이러한 단점을 극복한 typing & clustering 도구로서 여러 시각화 도구에서 사용 가능한 결과 파일을 만들어 낸다. 두 유전체 사이의 관계(pmatch,k)를 가변 k-mer sketch로 계산하여 core distance(π, SNP density)와 accessory distance(a)를 축으로 하는 2차원 평면에 점으로 표시하고, 이들의 분포를 가장 잘 설명할 수 있는 모델의 피팅 및 최적화를 거쳐서 네트워크 구조를 만들어 낸다.


위의 수식에서 보였듯이 한 쌍의 서열 사이에 k-mer가 매치할 확률은 비교 대상 중 어느 하나에만 존재하는 accessory locus에 존재하지 않을 확률(paccessory) 곱하기 mismatch가 없는 공통 core genome 서열에 존재할 확률(pcore)로 표현된다. 나도 아직은 이 수식을 완벽하게 이해한 것은 아니다. PopPUNK의 전체 과정을 설명하는 그림을 원문 사이트에서 인용해 본다.

Fig. 1. Summary of the PopPUNK algorithm. 출처 링크.

99 균주의 유전체 서열을 가지고서 PopPUNK를 돌려 가면서 감을 잡기 위해 노력하는 중이다. 아직은 모델의 최적화를 이루지 못하였다. 논문에서 예시로 든 다른 species에 비해서는 다양성이 매우 적다고 느껴진다.

microreact로 시각화한 결과.

PopPUNK 결과물을 제대로 보려면


PopPUNK가 만들어내는 다양한 interactive output은 다음의 환경에서 보면 된다.
  • Microreact: Open data visualization and sharing for genomic epidemiology
  • phandango: Interactive visualization of genome phylogenies
  • GrapeTree: A fully interactive, tree visualization program, which supports facile manipulation of both tree layout and metadata
  • Cytoscape: Network data integration, analysis and visualization in a box (네트워크 구조를 상세하게 조사하려면 cytoscape를 권장한다)

댓글 없음: