2019년 8월 19일 월요일

Pan-genome analysis tool에서 산출한 strain-specific gene의 활용에 조심해야 하는 이유

여러 미생물 유전체를 모아서 pan-genome 분석을 하면 각 균주에만 특이적으로 존재하는 유전자 정보를 얻게 된다. 이는 그 균주의 존재 여부를 검출하는 특이적 마커로 유용하게 쓰일 수 있다. 몇 번의 프로젝트를 통해서 특정 균주에만 존재하는 특이적 염기서열(꼭 유전자 단위일 필요는 없지만)을 찾아서 이것이 정말 쓸만한 것인지를 점검하는 과정에서 이상한 현상을 종종 발견하게 되었다. 즉, 해당 단백질 서열을 다시 비교 대상에 쓰인 모든 유전체들에 대하여 blast로 점검하면 identity가 95%를 훨씬 넘는 match가 다른 유전체에서 발견되는 것이었다. 이는 내 상식으로는 이해할 수 없는 일이었다. 오직 LS-BSR만 이런 문제를 보이지 않았고, roary, orthoMCL, 그리고 최근 설치하여 활용 가능성을 알아보고 있는 panX 모두 그러하였다. 유전자 단위가 아니라 유전체 단위로 분석을 실시하는 panseq의 novel region finder 기능에서만 이러한 이상 현상이 발견되지 않았다.

Pairwise similarity를 클러스터링하는 알고리즘의 특성인가? 내 수준으로는 이 레벨에서 벌어지는 일들을 이해하기 어렵다. 단서를 찾기 위해 panX 웹사이트를 뒤적거리다가 눈에 뜨이는 항목을 하나 발견하였다.

panX advanced options: Resolve unclustered genes

유사도가 매우 높지만 클러스터를 이루지 못하는 유전자들을 해결하기 위한 옵션이다. panX는 클러스터를 구성하는 유전자들의 길이 분포를 스무스하게 만들기 위해 점검을 실시한다는 뜻으로 풀이된다. 즉 기본 동작 조건에서는 유사도가 높지만 길이에 큰 차이가 있는 유전자를 분리시키는 것으로 보인다.

blast 결과를 점검해 보았다. 균주 특이적 유전자로 분류된 것 중 다른 균주에 존재하는 것과 similarity가 매우 높게 나왔던 것은 유전자 길이에서 큰 차이가 있었다. 즉 match가 이루어진 유전자 쌍 중에서 어느 하나에게는 full length match이지만, 다른 쪽에게는 절반이거나 혹은 그 이하의 영역에 대해서만 match였었다. Roary 웹사이트에는 이런 예외적 현상에 대한 설명이 없었고, 나 역시 paralog를 분리하는 문제에만 관심을 갖고 있었다. 당연히 직면할 수 있는 문제임에도 불구하고 이를 미처 인지하지 못했다니 부끄럽기만 하다. blast score ration를 기반으로 클러스터를 만들지 말지를 결정하는 LS-BSR에서는 이런 문제가 나타나지 않음을 쉽게 이해할 수 있다.

온전한 유전자(A)가 sequencing error로 인하여 길이가 유사한 두 개의 CDS(C + D)로 예측되었다고 가정하자. 다른 genome에 존재하는 A의 homolog는 C와 D 모두에 대해서 높은 similarity를 보이겠지만, 길이 분포의 문제로 인하여 이를 하나의 클러스터로 모으지는 못한다. A는 또 다른 genome에 존재하는 유사한 길이의 A', A'', A''' 등과 클러스터를 형성할 수는 있으나 모든 비교대상 genome을 아우리는 core genome의 일원은 되지 못할 것이고, C와 D는 균주 특이적 유전자로 취급될 것이다. 만약 C나 D를 그 균주의 특이적 마커로 판단하여 PCR primer를 고른다면 당연히 원하는 결과를 얻는 길에서 멀어질 것이다.

panX 파라미터를 건드려서 이러한 짧은 유전자를 억지로 클러스터에 포함시키는 것은 바람직하지 못하다. 아니, 짧은 유전자가 반드시 클러스터에서 소외되리라는 것은 편견이다. 대부분이 짧은 형태이고 유난히 긴 것이 하나 있다면 그것이 클러스터에서 제외될 것이다. 균주 특이적 마커 염기서열을 찾는 것이 주된 목적이라면, 아예 유전체 서열을 기본으로 움직이는 panseq를 사용하거나 또는 기존의 도구를 통해서 얻어진 unique gene을 전체 유전체에 대하여 최종 검색을 하여 점검하는 것이 바람직할 것이다.

댓글 없음: