2018년 3월 3일 토요일

미생물 유전체 - 얼마나 같아야 같은 것인가?(ANI)

제목이 넌센스다. 얼마나 같아야 같은 것이냐? 다시 풀어서 말하자면 미생물 유전체의 유사도를 측정하는 지표로 요즘 가장 널리 쓰이는 average nucleotide identity(ANI)의 수치가 얼마나 높아야 두 미생물 스트레인을 '같은' 것으로 판정할 수 있느냐 하는 문제를 다루고자 한다. ANI의 정의는 매우 단순하지만, 이를 실제로 계산하는 방법은 몇 가지가 있다. MUMmer를 사용하는 ANIm, BLAST를 이용하는 ANIm, 유전자를 먼저 예측한 뒤 이를 대상으로 계산하는 gANI 등이 있다. ANI가 대략 95~95%이면 DDH(DNA-DNA hybridization) similarity 70%에 해당하는 것으로 알려져 있다. 좀 더 구체적으로는 gANI >= 96.5%이면 동일 종으로 본다.

ANI 못지않게 중요한 것은 AF(aligned fraction)이다. 각 유전체에 대해서 실제 alignment가 이루어진 서열의 비율을 뜻한다. 만약 계통발생학적으로 매우 먼 두 미생물에 동일한 transposon이 있다고 가정하자. ANI = 100%가 나올 수도 있지만, AF는 0.1% 정도에 불과할 것이다. dRep 프로그램(gANI 사용)에서는 AF가 10% 미만이면 ANI = 0으로 출력한다.

오늘의 논의에서 참고한 웹사이트는 다음의 두 곳이다.

What defines genomes as being "same"? - dRep 매뉴얼
Are these microbes the "same"? microBEnet(the microbiology of the Built Environment network)

두 종류의 미생물 균주가 '같다'라고 말하는 것의 스펙트럼은 의외로 넓다. 구체적인 ANI 값을 적용해 보자.

  1. <96% ANI = 동일한 16S 클러스터에 속한다.
  2. >96% ANI = 동일한 박테리아 종(species)에 속한다.
  3. >98% ANI = 동일한 E. coli clade이다.
  4. >98.8% ANI = 동일한 Prochlorococcus clade이다.
  5. >99.9% ANI = 동일한 Klebsiella pneumonae outbreak 균주이다.
실험 대상자의 온몸을 면봉으로 샅샅이 문질러서 한천 배지에 도말하여 대장균을 배양해 냈다고 가정하자. 손가락 끝에서 검출된 대장균과 엉덩이 피부에서 검출된 대장균의 유전체가 ANI 기준으로 95%가 같다고 하면 두 대장균은 동일한 곳에서 유래한 것일까? 즉, 화장실에서 볼일을 보고 손을 제대로 씻지 않아서 그 실험 대상자의 대장 속에 머물러야만 했던 대장균이 항문 근처 엉덩이 피부와 손에 남아있는 것이라고 결론을 내려도 될까? 결코 그렇지 않다. 우리의 손이 일상 생활에서 내 것이 아닌 다른 사람의 대장균을 만날 가능성은 얼마든지 있기 때문이다. 그러므로 이러한 질문에 대답하고 싶다면 ANI > 95%여야 함은 당연하지만, 얼마나 높아야 하는지는 심사숙고해야 한다. UC Berkeley의 질리안 반필드(Jillian F. Banfield) 교수 연구팀에서는 2017년 Genome Research에 발표한 논문을 통하여 99.9%를 기준으로 삼았다. 기억을 더듬어보니 2016년에 있었던 Lake Arrowhead Microbial Genomics 미팅에서 논문의 제1저자인 Matthew R. Olm의 발표를 직접 들었었다. 내가 dRep을 처음 듣고 요즘 미생물 유전체 비교 작업에 사용하게 된 것도 이 미팅에 참석한 덕분이었다.


이 논문에서는 병원에서 생후 1개월을 보냈던 미숙아 2 명의 피부와 구강 및 장내 미생물에 대한 metgaenomics 분석을 통해서 어떤 미생물들이 정착하여 성장하는지를 살펴보았다. 이때 동일한 미생물 균주의 기준값은 99.9% whole-genome ANI였고, 정착(colonization)의 기준은 샘플을 채취한 위치에서 >1% read일 때였다. 동일한 균주가 신체 여러 곳에 정착하되 서로 다른 growth rate를 보인다는 것이 주요 결론이었다. 동일한 균주라고 했지만 단 하나의 세포에서 각 집단이 유래하는 것은 아니다. 따라서 이러한 미생물의 정착촌은 시작 단계부터 집단 내 변이가 당연히 존재함을 잊어서는 안된다.

마지막으로 내가 알고있는 ANI 계산 도구를 소개하는 것으로 끝을 맺고자 한다. 단 두 개의 genome sequence를 비교하는 것, 여러 genome 사이를 비교하여 매트릭스 형태의 데이터 파일을 생성하는 것, heatmap을 만들어 주는 것 등 저마다의 특징이 있다. 이것을 전부 다 사용해 본 것도 아니다.

댓글 없음: