2017년 7월 18일 화요일

감동의 소프트웨어 circlator

이전 포스팅:  Circlator: 세균 유전체 서열을 원형으로 만들기

링크를 찾느라 다시 글을 읽는 도중 제목과 본문에서 잘못된 철자를 발견하였다. 이 프로그램의 이름은 순환을 시킨다는 뜻의 circulator가 아니라 원형을 만든다는 신조어인 circlator였다. 뒤늦게 원본 글을 수정하였지만 글의 주소 및 Google+에 자동 공유된 글 발췌본은 고칠 수가 없다.

Circlator의 주된 기능은 원형 replicon에서 유래한 contig로서 양 끝이 이미 중복되거나, 혹은 추가적인 assembly를 통해서 메워질 수 있는 약간의 gap을 해결하는 것이다. 그런데 다음 그림의 (C)에 해당하는 기능도 주목할만하다. read의 길이가 plasmid의 길이를 훨씬 상회하면서 결과적으로는 plasmid의 서열이 반복되는 비정상적인 길이의 contig가 만들어지는 일이 있는데, 이를 정확한 구조로 정리해 주는 것이다.

Genome Biology201516:294
DOI: 10.1186/s13059-015-0849-0 (그림 1)
CLC Genomics Workbench의 유료 플러그인 "Genome Finishing Module"에서 PacBio long read 데이터를 교정/조립/이를 이용한 contig 연결 등이 가능하므로 가끔 이 기능을 사용하고는 하였다. 그러나 circlator 수준으로 원형 contig의 말단 중복을 제거하고 심지어는 dnaA gene 위치를 기준으로 재조정까지 자동적으로 해 주지는 못한다. 설치와 사용법 역시 매우 간단하여 감탄에 감탄을 거듭하고 있다. 영국의 Sanger Institute가 제공하는 미생물 유전체 데이터 처리용 소프트웨어 중에서 Artemis와 더불어 어쩌면 가장 유용하게 쓸 프로그램의 하나가 될지도 모르겠다. 2015년에 나온 유용한 소프트웨어를 이제 접하게 된 것이 안타까울 따름이다.

시퀀싱 데이터는 과거의 일회적으로 만들어졌지만 새롭게 쏟아져 나오는 tool을 활용하여 분석하면 더 나은 결과를 얻는 일이 종종 벌어진다. 더욱 재미있는 현실은 내 데이터를 주무르다가 새롭고 유용한 도구를 발견하는 것이 아니라, 외부에서 의뢰한 데이터를 분석하면서 오히려 더욱 열심히 새 도구를 찾게 되고 이것이 오히려 발전의 기회가 된다는 것이다. 그러니 더욱 감사할 일이 아닌가?

[수정 사항]

Circlator가 하나로 만들지 못한 염색체를 CLC의 Genome Finishing Module에서 성공적으로 재구성하였다. PacBio long read correction 방법 및 연결 방법이 다르니 그럴 수 있다. 물론 마무리는 다시 circlator로 하였다. 상호 보완적으로 쓰일 수 있음을 염두에 두도록 하자.

댓글 없음: