2018년 8월 28일 화요일

Genome Pair Rapid Dotter, GEPARD

Gepard는 독일어로 '치타(cheetah)'라고 한다. 3 초만에 시속 100 km의 속도를 낸다는 바로 그 치타를 말한다.

2007년에 발표된 소프트웨어에 관한 글을 2018년에 쓴다는 것이 참 부끄럽다(PubMed 링크; 공식 웹사이트 링크). 항상 박테리아 유전체의 1:1 alignment를 할 때에는 MUMmer를 기계적으로 사용하여왔고, 아주 가끔 Mauve를 썼었다. MUMmer는 알고리즘적으로 더 이상 손을 댈 필요가 없을 정도로 완벽한 프로그램이다. 대신 결과를 그림으로 만든 다음 대화식으로 조작하는 것이 불편하다. Gnuplot 문법을 잊지 않게 해 주는 일등공신이 바로 MUMmer이다. 결과물을 그래픽 파일로 저장하려면 스크립트 파일을 조금 건드려야 하기 때문이다. 오늘 소개할 Gepard는 MUMmer와 비슷하게 suffix-structure 기반의 데이터 구조를 활용한다고 한다.

외부에서 입수한 유전체 분석 데이터를 검토하다가 Gepard로 그린 그림이 있어서 직접 써 보기로 했다. jar 파일이라 설치라고 할 것도 없었다. 두 개의 파일을 업로드하고, 직관적으로 조작을 하면 된다. 특정 영역을 상세하게 보고 싶으면 마우스로 해당 부분을 드래그하여 표시를 한 다음 확대경 버튼을 클릭하는 것으로 충분하다.


MUMmer와 다른 점이 있다면 alignment를 생성하는 기능이 제한적이고, 이를 위한 파라미터 설정이 다양하지 않다는 것 정도이다. 다시 말해서 dot plot viewer의 기능에 매우 충실한 프로그램이다.

Genome 비교를 위한 dot plot viewer 소프트웨어에 새로운 것은 없는지 구글을 뒤적이다가 다음과 같은 웹문서를 발견하였다. 2018년에 게시된 글이니 꽤 최근의 것이라 할 수 있다.

DOT: an interactive dot plot viewer for comparative genomics

이는 DNAnexus 안에서 돌아가는 프로그램이라고 한다. DNAnexus란 무엇인가? 웹사이트의 소개글을 읽어보았다. 유전체 데이터와 도구를 관리하고 공유하는 클라우드 기반의 서비스 제공 회사로서 2009년 스탠포드 대학에서 스핀오프 형태로 창립되었다고 한다. 요즘은 유전체 데이터를 저장하고 분석하기 위한 서버를 직접 구축하는 것이 아니라 클라우드 상에서 subscription 기반으로 필요한 때에 필요한 도구/스토리지를 할당받아 사용하는 서비스가 늘어나고 있는 추세이다. Google Genomics(링크)도 마찬가지 개념의 서비스로 이해하면 될 것이다. 말하자면 Galaxy의 상용 버전 비슷한 것이라고 여기면 된다.

Dot plot program은 생물정보분석의 매우 고전적인 사례인데, Gepard를 처음으로 써 보다가 최신 트렌드인 cloud computing을 이용한 유전체 데이터 분석 서비스까지 이르게 되었다. 도대체 어떤 서비스가 존재하는가? 게으른 사람의 솔루션 - 2018년 최신 리뷰 논문을 하나 읽어보자.

Cloud computing for genomic data analysis and collaboration. Nature Genetics Review 2018 19(4):208-219. [PubMed]