EzBioCloud 제대로 사용하기

[참고] 쉽게 쓴 원핵생물(prokaryote)의 종 동정 이야기

천랩의 대표적 서비스인 EzTaxon은 16S rRNA 유전자 서열을 이용하여 원핵생물(prokaryote = bacteria and archaea)의 종을 동정하는데 매우 널리 쓰이고 있다. 우리나라에서 개발된 생명공학/생물정보학 웹사이트 중에서는 가장 활용도가 높은 것이라 해도 과언이 아닐 것이다. 유전체 시대를 맞이하여 EzTaxon은 잘 선별되고 가공된 16S rRNA 유전자와 유전체 서열을 통합한 EzBioCloud(논문, 웹사이트)로 확장되기에 이르렀다. 현재 종 동정은 표준 균주(type strain)와 시험용 균주의 유전체 서열 비교를 통해서 이루어지는 것이 표준 방법으로 여겨지고 있기 때문이다. 두 원핵생물 유전체 서열 사이의 ANI, 즉 average nucleotide identity가 일정 cutoff(보통 95~96%) 이상이면 동일 종으로 간주한다.

하지만 아직까지는 EzBioCloud 안에서 유전체 서열을 다루는 방법에 익숙하지 않아서 천랩이 제공하는 튜토리얼(Identifying a bacterial strain using a genome sequence, 튜토리얼 전체 모음 페이지)과 이메일 상담을 통해서 이를 익혀나가는 중이다. 두 차례에 걸쳐 꼼꼼하게 답변을 보내준 천랩 학술사업부 이혜원님에게 고맙다는 뜻을 전하고 싶다. 천랩이 제시하는 방법을 요약하면 다음과 같다.

Genome FASTA file를 ContEst16S(논문, 웹사이트)에 업로드하여 오염 여부를 점검(raw sequencing read가 아니라 contig 서열을 업로드해야 함)
ContEst16S 오염이 발견되지 않았다면, 여기에서 예측한 16S rRNA sequence를 복사함. ContEst16S를 사용하지 않았다면 Prokka 등의 다른 genome annotation 방법을 통해서 16S rRNA gene을 뽑아냄
이를 EzBioCloud의 Identify에 제출하여 분석을 실시함. Similarity 계산식은 여기를 참조
Identify 결과 중에서 similarity ≥98.8%인 것의 유전체 서열을 다운로드하여 샘플 genome fasta file과 함께 orthoANI에 업로드
샘플과 type strain의 유전체 서열 사이에서 계산된 ANI 값이 95~96% cutoff를 넘으면 같은 종으로 판정

ContEst16이 자동 생성한 16S rRNA gene fragment의 ML tree.

4번 과정은 약간의 설명이 필요하다. 내가 천랩에 직접 이메일을 보내서 상세한 방법을 문의한 것도 바로 이 과정이었다. 전형적인 Identify의 결과표는 다음과 같다(너무 길어서 오른쪽 컬럼은 잘라냄).

Hit taxon name이 일반적인 학명이 아닌 CP017181_s로 표시된 것이 보인다. 이것은 천랩에서 NCBI의 유전체 서열을 점검하면서 이름이 잘못 붙은 것에 따로 매긴 taxon 이름이다. 즉 완성된 유전체 서열이지만 알려진 type strain의 유전체 서열과 비교하여도 OrthoANI > 97%로 매치하지 않아서 이런 임시 taxon 명칭을 붙인 것이다. 여기에서 보인 사례는 genome accession이 CP017181인 바로 자신이 나와주었지만, 이것과 동일 종으로 엮인 CP017181_s는 오늘 날짜 기준으로 총 60개나 된다(링크). 이들의 original label을 보면 잘못된 명칭이 붙은 유전체가 얼마나 많은지를 알 수 있다. CP017181_s가 종(species) level의 putative taxon의 이름으로 선택된 것은 CP017181의 assembly status가 'complete'였기 때문이다.

OrthoANI에 업로드할 genome의 서열을 다운로드하는 방법은 다음 중 하나를 따라가면 된다.

Identify 결과창 왼쪽 컬럼 'Task' 중 동그라미('View genomes') 클릭 -> Browse EzBioCloud public genome database가 열리면 Browse 클릭 -> 오른쪽 Download 탭 클릭 -> CLG, contig FASTA, CDS 중에서 원하는 것을 클릭하여 다운로드
Identify 결과창에서 Hit taxon name 클릭하여 다음 그림이 나오면 genome(빨강색 박스) 클릭 -> Browse EzBioCloud public genome database가 열리면 Browse 클릭, 이하는 (1)번 경로와 같음

NCBI에서 미생물 유전체 서열을 받을 때면 늘 이 균주가 type stain인지의 여부를 명쾌히 알려주지 않아서 논문을 일일이 찾아보아야 했었다. 그런데 EzBioCloud를 사용하면 type 균주 여부는 물론이거니와 16S rRNA 유전자와 genome sequence 측면에서 정확한 종 명칭이 부여되었는지를 확인한 유전체 서열을 손쉽게 다운로드할 수 있어서 얼마나 편리한지 모르겠다. 이렇듯이 EzBioCloud 데이터베이스에서는 16S rRNA 유전자 검색을 통한 접근뿐만 아니라 검색창에 균주 명칭을 입력하면 공개된 유전체 서열 중 천랩의 점검을 통해서 해당 종으로 판정된 것들의 목록이 얻어지고 다운로드 기능까지 이어진다.

키워드 검색을 통하여 EzBioCloud를 이용한 사례를 살펴보자. 검색창에 'Paenibacillus polymyxa'를 입력하면 다음과 같은 결과가 얻어진다. 기본으로 보여지는 것은 taxonomy이고 genome과 16S rRNA를 클릭하여 각각에 대한 상세한 정보를 얻을 수 있다.

다음으로는 'E681'을 입력해 보자. 이 균주는 처음에 Paenibacillus polymyxa로 동정된 뒤Sanger 기술을 이용하여 유전체 해독을 완료하였던 것이다(CP000154.2). Paenibacillus polymyxa의 type strain인 ATCC 842의 유전체 서열을 나중에 해독하여 서로 비교를 해 보니 E681은 Paenibacillus polymyxa가 아닌 다른 신종으로 다루어야 함을 알게 되었다. 하지만 균주의 특성에 대한 다른 실험이 수반되어야 하는 관계로 새로운 종을 제안하고 E681을 여기에 type strain으로서 재분류하는 일을 아직 하지는 못한 상황이다. EzBioCloud의 검색창에 'E681'을 넣어 보았다. CP000154_s라는 putative taxon의 대표(reference) 서열로 등록이 되어 있었다.

CP000154_s로 분류된 유전체 정보는 총 21건(링크)로서 original label은 Paenibacillus polymyxa, Paenibacillus peroriae 및 Paenibacillus sp.였다.

정해영의 블로그 - JEONG Haeyoung's blog

2017년 12월 4일 월요일

EzBioCloud 제대로 사용하기

댓글 1개:

즐겨 찾는 곳

프로필