쉽게 쓴 원핵생물(prokaryote)의 종 동정 이야기

가능한 한 쉽게 풀어서 쓰려고 노력해 보겠다. 이러한 글을 블로그에 남기는 것은 다른 사람이 이를 읽어보고 유용하게 활용하라는 뜻보다 나 자신의 공부를 위한 목적이 더 크다.

박테리아의 종(species) 개념에 대해서 알고 싶다면 천랩 BIOiPLUG help center의 글을 먼저 읽어보기를 권한다.

Bacterial species concept explained

이에 의하면 가장 최신의 phylo-phenetic species concept는 이러하다.

“A monophyletic and genomically coherent cluster of individual organisms that show a high degree of overall similarity in many independent characteristics, and is diagnosable by a discriminative phenotypic property.”

실제 세계에서는 각 스트레인이 다닥다닥 모여서 하나의 종을 구성하는 이상적인 일이 흔하게 벌어지지는 않는다. 각 스트레인 간의 거리를 어떻게 계산할 것인가? 이를 위해서 주로 유전체 서열을 이용하는 여러 방법이 존재한다, 상세한 것은 이 글의 뒷부분을 참조하라. 표준 균주, 즉 type strain은 species를 이루는 strain들의 cluster에서 가장 중심이 되는 위치에 존재하게 된다.

DNA-DNA hybridization (DDH)

실제로 DDH 실험을 하는 모습을 한 번도 본 일이 없으면서 툭하면 이 실험 기법과 종 구분의 기준 수치(70%)에 대해서 논하는 것은 좀 우습다. 70% DDH라는 표현을 아주 쉽게 하는데, 정확히 말하자면 이는 DNA-DNA relatedness 혹은 percentage reassociation similarity의 수치를 말한다. 이 수치는 1960년대부터 두 미생물이 얼마나 유사한지를 가늠하는 척도로 널리 쓰여왔다(왜? 미생물의 형태적 특징은 우리가 늘 접하는 동물이나 식물처럼 변별력이 높지 않으므로...). 그러다가 이것이 종을 구분하는 척도로 쓰이게 된 것은 Report of the Ad Hoc Committee on Reconciliation of Approaches to Bacterial Systematics라는 1987년도 논문(링크)에서 어떤 기준점을 공식적으로 제안하면서 부터이다.

DNA-DNA relatedness가 70%와 같거나 그보다 크면 두 박테리아는 같은 종이다. 비교 균주가 공인된 특정 종의 type strain이라면, 내 샘플이 그 종에 해당한다고 판정할 수 있다. 그러나 70%보다 작으면 서로 다른 종이다.

"with 5°C or less ΔT_m of reassociated DNA strands"라는 조항도 있었지만 앞의 기준만이 보편적으로 사용된다. 잘 기억해 두자. DDH value ≥ 70%이면 동일 종, DDH value < 70%이면 다른 종이다.

16S rRNA gene sequence의 이용

DDH 실험은 숙달되기가 매우 어려워서 이를 제대로 수행하는 랩이 많지 않다고 한다. 그래서 누구나 하기 쉬운 PCR을 이용하여 16S rRNA gene의 일부를 PCR로 증폭한 뒤 이를 Sanger sequencing으로 읽어서 sequence similarity(%)를 산출, 이를 두 균주의 유사도를 측정하는 지표로 사용하는 방법이 급속하게 대중화되었다.

나는 개인적으로 DNA 서열을 비교할 때 similarity라는 표현을 쓰는 것을 별로 좋아하지는 않는다. ATGC 오직 4개의 염기로만 구성된 DNA의 서열 정렬에서는 같으면 같은 것이고 다르면 다른 것이다. 그러므로 여기에서 두 서열을 가지고 계산하여 나오는 수치는 sequence identity라고 하는 것이 더 정확하다고 생각한다. 아미노산처럼 생화학적 특성이 유사한 것끼리 그룹을 지을 수 있는 거대분자의 서열을 정렬할 때에나 identity와 similarity가 각각 다르게 나올 것이고, 그 나름대로의 의미가 있다고 본다.

70% DDH에 해당하는 기준이 16S rRNA gene 서열의 similarity에도 존재할까? 1994년 Stackebrandt 등은 Taxonomic Note: A Place for DNA-DNA Reassociation and 16S rRNA Sequence Analysis in the Present Species Definition in Bacteriology라는 논문(링크)에서 16S rRNA gene sequence similarity < 97% 이면 두 균주는 서로 다른 종이고, 이 값이 ≥ 97%이면 정확한 구분이 어려우니 DDH 실험이 필요하다고 하였다.

16S rRNA similaity가 97%보다 작으면 두 박테리아는 다른 종이다. 97%보다 같거나 크면 같은 종일 수도, 아닐 수도 있다.

많은 미생물학자들은 새로운 종을 발견하기를 원한다. 따라서 자연계에서 어떤 세균을 분리하여 16S rRNA gene 서열을 읽은 다음, type strain의 그것과 비교하여 similarity가 97%보다 적으면 새로운 종이 발견될 희망을 안고서 후속 연구를 진행하고, 이보다 높으면 제껴둔다고 하였다. 즉, 75% DDH와는 입장이 조금 다른 기준치인 것이다.

최근에는 97%라는 기준치를 98.7-99%로 올려야 한다는 주장이 설득력을 얻고 있다. 관련 기사(Stackebrandt and Ebers 2006, Microbiology Today 33:152-155)를 찾아보니 2006년에 발표된 것이라서 최근은 아니었다. 쉽게 말하자면 예전에는 16S rRNA gene sequence가 98% 같았다면 비교 균주와 동일 종인지의 여부를 판별하기 어려우므로 DDH 실험이 필수적이었지만, 이제는 동일 종이 아니라고 말할 수 있다는 것이다. 즉, 수고스런 DDH 실험을 덜 하고도 novel species라고 말할 수 있게 되었음을 뜻한다. 이렇게 말할 수 있게 된 것은 - 모든 데이터셋에 대하여 분석을 한 것은 아니지만 - 98.7% gene sequence similarity 문턱값에 미치지 못하는 데이터 쌍의 경우 DNA reassociation value는 항상 70% 미만이었음을 알았기 때문이다.

실제로 어떤 프라이머를 사용하여 16S rRNA의 어느 영역을 증폭하는지에 대해서는 BIOiPLUG help center의 도움말을 참고하자.

16S rRNA and 16S rRNA gene

Genomics 시대에 걸맞는 종 동정 방법

NGS가 보편화된 요즘, genome sequencing은 가장 쉽게 얻을 수 있는 데이터가 되었다. 따라서 type strain과 내 샘플의 유전체 서열을 서로 비교하여 어떤 수치를 내놓으면, 이것을 70% DDH처럼 기준치와 비교하여 같은 종인지의 여부를 판별할 수 있지 않겠는가? 가장 보편적으로 쓰이는 수치는 바로 ANI(average nucleotide identity)이다. 이를 산출할 때 유전체 서열을 절단하여 그대로 쓰는 방법, 혹은 상동 유전자를 추출하여 사용하는 방법 등 실제 계산 프로그램은 몇 가지가 존재한다. BIOiPLUG help center에서는 OrthoANI를 사용한다. 전체적인 절차는 다음의 튜토리얼을 참고하자.

[Tutorial] Identifying a bacterial strain using a genome sequence

이 튜토리얼에서는 다음과 같은 순서를 따른다.

16S rRNA gene sequence를 이용하여 "Identify"를 실행한다.
98.7% 이상으로 나타난 것의 type strain으로부터 genome sequence를 얻는다.
OrthoANI를 계산하여 95~96% cutoff를 넘으면 해당되는 종으로 동정한다.

구글 검색창에 ANI calculator를 넣으면 다양한 계산 도구가 나온다. 나는 개인적으로 JSpecies를 주로 쓰다가 요즘은 많은 다루면서 heatmap까지도 그려주는 pyani를 애용하고 있다. 천랩의 OrthoANI는 유전체 서열을 일정 길이로 잘라서 reciprocal blastn을 먼저 수행하여 orthologous pair를 결정한 다음, 이것들에 대한 ANI를 계산한다는 것이 특징이다. 2015년에 발표된 논문 Microbial species delineation using whole genome sequences(링크)에서는 protein-coding gene을 염기서열 수준에서 비교하여 얻은 genome-wide Average Nucleotide Identity(gANI)와 aligned fraction(AF)을 같이 사용하는 방법을 제안하기도 하였다. 이 방법은 MiSI(Microbial Species Identifier)라는 멋진 이름이 붙어서 Integrated Microbial Genomes(IMG)에 구현되어서 쓰이고 있다(링크).

유전체 서열을 이용하여 디지털화한 DDH 값을 계산하는 도구도 있다. 이는 GGDC(Genome-to-Genome Distance Calculator)라는 것으로, 사용자가 입력한 두 유전체 서열(accession number를 넣어도 됨)에 대하여 DDH 값과 신뢰구간을 예측하여 준다.

또 다른 방법, specI

앞에서 소개한 방법들은 전부 두 개의 strain에서 유래한 서열(16S rRNA gene or genome)을 주었을 때 이들이 동일 종인가 아닌가를 판별해 주는 것이다. 즉, species demarcation tool인 것이다. 내 샘플에 어떤 종의 명칭을 붙일 수 있는가의 문제는 비교 대상이 되는 균주가 type strain인가 아닌가에 달려있다.

이와 달리 specI(웹서비스 링크, Nature Methods 2013년도 논문)는 1:1로 비교할 균주 정보를 제공하지 않고 단지 내 미생물의 유전체 서열에서 예측한 유전자 정보(cds 및 아미노산 서열 파일이 각각 있어야 함)를 입력하여 40개의 single copy, universal phylogenetic marker gene에 대한 identity를 계산하여 어느 유전체와 가장 가까운지를 표시해 준다. 이론적으로는 매우 만족스럽지만 2013년에 3,496개의 유전체 서열(이 중에서 type strain은 836개)을 가지고서 개발된 것이라 업데이트가 시급하지만 아직 별다른 변화는 없다.

specI에서 사용하는 40개 마커 유전자의 목록은 Supplementary Table 3(링크)에 나와 있다. 대부분 ribosomal protein으로서, phyloSift의 마커 유전자(링크)와도 상당히 겹친다. specI의 universal marker gene 목록 작성에 참고가 된 논문은 Toward automatic reconstruction of a highly resolved tree of life(Science 2006, 링크)이다. Phylogenetic marker gene과 minimal gene set은 약간 다른 개념이니 혼동해서는 안된다.

정해영의 블로그 - JEONG Haeyoung's blog

2017년 11월 27일 월요일