Lees JA, Harris SR, Tonkin-Hill G, Gladstone RA, Lo SW, Weiser JN, Corander J, Bentley SD, Croucher NJ. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research 29:1-13 (2019). doi:10.1101/gr.241455.118
출처: https://poppunk.readthedocs.io/en/latest/index.html |
병원체 감시(pathogen surveillance)를 위한 유전 데이터를 분석하는 방법으로는 MLST(multilocus sequence typing)가 전통적으로 널리 쓰인다. 유사한 MLST sequence type(ST)을 갖는 균주끼리 minimum-spanning tree를 만들어서 eBURST로 시각화하는 방법이 매우 보편적인데, 몇 개의 housekeeping gene만을 대상으로 하기 때문에 해상도에는 한계가 있다. 이제는 유전체 시퀀싱을 매우 염가에 할 수 있으므로, cgMLST(core genome MLST) 또는 wgMLST(while-genome MLST)를 활용하는 방법도 바람직하다. 그러나 결국 sequence alignment라는 시간이 오래 걸리는 계산을 피할 수 없고, 유전자에 대한 정보가 필요하며, 새로운 샘플이 약간만 추가되더라도 분석을 처음부터 다시 해야 하므로 스케일업이 매우 어렵다.
PopPUNK는 이러한 단점을 극복한 typing & clustering 도구로서 여러 시각화 도구에서 사용 가능한 결과 파일을 만들어 낸다. 두 유전체 사이의 관계(pmatch,k)를 가변 k-mer sketch로 계산하여 core distance(π, SNP density)와 accessory distance(a)를 축으로 하는 2차원 평면에 점으로 표시하고, 이들의 분포를 가장 잘 설명할 수 있는 모델의 피팅 및 최적화를 거쳐서 네트워크 구조를 만들어 낸다.
위의 수식에서 보였듯이 한 쌍의 서열 사이에 k-mer가 매치할 확률은 비교 대상 중 어느 하나에만 존재하는 accessory locus에 존재하지 않을 확률(paccessory) 곱하기 mismatch가 없는 공통 core genome 서열에 존재할 확률(pcore)로 표현된다. 나도 아직은 이 수식을 완벽하게 이해한 것은 아니다. PopPUNK의 전체 과정을 설명하는 그림을 원문 사이트에서 인용해 본다.
Fig. 1. Summary of the PopPUNK algorithm. 출처 링크. |
99 균주의 유전체 서열을 가지고서 PopPUNK를 돌려 가면서 감을 잡기 위해 노력하는 중이다. 아직은 모델의 최적화를 이루지 못하였다. 논문에서 예시로 든 다른 species에 비해서는 다양성이 매우 적다고 느껴진다.
microreact로 시각화한 결과. |
PopPUNK 결과물을 제대로 보려면
PopPUNK가 만들어내는 다양한 interactive output은 다음의 환경에서 보면 된다.
- Microreact: Open data visualization and sharing for genomic epidemiology
- phandango: Interactive visualization of genome phylogenies
- GrapeTree: A fully interactive, tree visualization program, which supports facile manipulation of both tree layout and metadata
- Cytoscape: Network data integration, analysis and visualization in a box (네트워크 구조를 상세하게 조사하려면 cytoscape를 권장한다)