2017년 8월 28일 월요일

MUMmer 버전 4.0의 시대

MUMmer는 매우 긴 DNA 서열을 매우 빠르게 정렬하는 프로그램이다. MUM이란 maximum unique match의 약자로서 다음의 기준을 충족해야 한다(원본).

  • matches exactly between the two genomes
  • exists exactly once in each genome
  • is not contained in a longer such region
MUM을 추출하여 suffix tree construction을 하고, 일정 범위 내에 분포하는 것은 clustering하고... 알고리즘적으로 복잡한 것은 일단 잊어버리자. 1999년에 처음 공개되어 3.0이 나온 것이 2004년이었고, 3.x대의 가장 마지막 버전은 3.23이었다. 더 손을 댈만한 곳이 없는 완벽한(?) 프로그램이라서 아직까지도 많은 응용프로그램에서 훌륭한 alignment engine으로 쓰이고 있다.

오랜만에 http://mummer.sourceforge.net/를 방문하니 반가운 소식이 하나 있었다. 바로 MUMmer 4.0 베타가 나온다는 것이다. 새로운 버전은 GitHub 사이트에서 배포되는데, 논문은 현재 작성 중이니 관심을 갖고 기다려달라고 하였다('Stay tuned' - 채널 고정!). 

새 버전에서 달라진 것은 query sequence의 길이에 제한이 없고 multi-thread 작업을 할 수 있다고 한다. 그동안 CPU 하나에서 단일 작업을 하느라 시간이 많이 걸렸던 문제가 해소될 수 있을 것이다. 사실 박테리아 수준의 유전체 서열에서는 큰 문제는 없었다.

이렇게 오랜 시간 동안을 꾸준히 사랑받으며 쓰이던 프로그램이 이제 새 버전까지 만들어낸다니 참으로 반갑기 그지없다. 비록 TIGR(The Institute for Genomic Research)는 현재 존재하지 않지만, 여기에서 개발한 많은 생명정보학 소프트웨어가 아직도 값진 유산으로 남아있고 또한 여기에서 길러진 많은 연구자들이 이제 중견 혹은 그 이상의 위치에서 제 몫을 다 하는 것을 보면 참으로 부럽다. 많은 사람들이 볼티모어에 있는 매릴랜드 의과대학으로 옮긴 것으로 알고 있다.

댓글 없음: