2021년 7월 14일 수요일

NGS 시대에도 Sanger sequencing 결과물의 처리는 필요하다 - Tracy

미생물 시료의 16S rRNA sequence를 알아내기 위해 표적을 몇 개의 겹치는 PCR product 형태로 들어내어 염기서열을 판독한 경우, 또는 재조합 벡터를 새로 만든 다음 확인을 하고자 할 때 Sanger sequencing 기법은 여전히 필요하다. 단일 크로마토그램에서 염기서열을 추출하는 것이 전부가 아니다. 몇 개 되지 않는 크로마토그램을 조립할 일도 종종 겪을 것이다.

생명정보학에 대한 전문적인 기법을 아직 습득하지 못한 사람이 이러한 상황에서 비용을 들이지 않고 편리하게 쓸 수 있는 도구가 그렇게 많지는 않다. 서너 개의 크로마토그램을 조립하기 위해 2021년에 Phrap 소스를 다시 꺼내어 설치하는 것은 가혹한 면이 없지 않다. 아니, 내 컴퓨터에 phrap이 깔려 있기는 한가?

$ phrap

phrap phrap 
phrap version 1.080812

phrap version 1.080812
Reading parameters ... 1.008 Mbytes allocated -- total 1.008 Mbytes

Run date:time  210714:081805
Run date:time  210714:081805
FATAL ERROR: Sequence files must be specified on command line. See documentation.

아직도 굳건하게 남아 있다. 그러고 보니 Staden package도 여전히 배포 중이다. 1996년에 나왔던 Staden sequence analysis package에 관한 논문은 여기에서 볼 수 있으며 최신 업데이트는 20년이 지난 2016년(v2.0.0b11)까지 이루어진 상태이다. 언제 쓸 일이 있을지 모르겠지만 윈도우용 버전을 설치해 보았다. Staden package와 관련하여 기억해 둘 것은 "contig"라는 용어가 원래 어디에서 유래했는지를 잘 설명해 주기 때문이다(링크). 참고로 Staden이 근무했던 영국의 MRC Laboratory of Molecular Biology는 일종의 출연연 또는 국가연구소로서 현대 분자생물학 분야에서 너무나 많은 성과를 남겼다. Staden의 사진을 한번 찾아 보았다.

Roger Staden (LMB). "Staden devised the first DNA sequencing software." 출처: What is biotechnology? Computers, Databases and Automation

Staden package 설치 화면.
원래 오늘은 생명정보학 프로그램 박물관과 관련한 글을 쓰려는 것은 아니었다. 동료로부터 PCR로 증폭하여 판독한 16S rRNA 염기서열 유래 크로마토그램을 조립하는 방법에 관하여 이야기를 나누다가 현 시점에 쓰기 적당한 도구는 무엇이 있을지 웹을 뒤지는 과정에서 Tracy라는 도구를 접하게 되었다. 2021년에 이런 소프트웨어를 접하게 되다니 반갑기 그지없다. 특히 공공성이 강한 기관(EMBL)에서 개발하였으므로 비교적 오랜 기간 동안 업데이트가 및 서비스가 이루어질 것이라는 막연한 기대도 갖게 된다.

Tracy: basecalling, alignment, assembly and deconvolution of Sanger chromatogram trace files. BMC Genonmics 21, article no. 230 (2020) https://github.com/gear-genomics/tracy

Tracy 자체는 명령행에서 돌아가는 backend이고 별도의 웹사이트인 GEAR Genome Analysis Server(https://www.gear-genomics.com/)에서 서비스가 이루어진다. 논문에 소개된 web application은 다음의 6개이지만, 실제로 방문을 하면 훨씬 더 많은 서비스가 있다. 오늘 확인한 바에 따르면 무려 16개의 application이 있으며, 앞으로 더욱 늘어날 것이라고 한다. 마치 세련되게 다시 꾸민 EMBOSS explorer를 보는 느낌이다.

  • Teal: Viewing a trace file
  • Sage: Aligning a trace to a reference sequence
  • Indigo: Decomposing a trace, variant calling and annotation
  • Pearl: Patching FASTA sequences based on a local trace assembly that optionally uses a reference sequence
  • (Auxiliary) Sabre: a MSA viewer
  • (Auxiliary) Wily-DNA-Editor
논문의 그림 1 일부(Pearl)를 아래에 소개하였다. Reference 서열에 대하여 조립된 크로마토그램으로부터 mismatch를 잘 보이고 있다.
Full size image 원본 링크.
고전적인 DNA sequencing 이론은 이제 교과서 속으로 들어가 버리고 젊은 연구자들은 그 실체를 접할 기회가 많지 않은 것 같다. 

댓글 없음: