2008년 1월 26일 토요일

Phred/phrap/consed

미생물 유전체 해독에서 아직까지 가장 널리 쓰이고 있는 소프트웨어 패키지가 바로 phred/phrap/consed이다. Phred는 basecaller, phrap은 fragment assembler, 그리고 consed는 contig viewer & editor이다. 내가 이 프로그램을 처음 접한 것은 2000년도 였던 것으로 기억한다. 당시 (주)제노텍에 근무하고 있었으므로 University of Washington에 $10,000의 라이센스 비용을 지불하고 사용권을 얻었다. Phred는 99년도 판과 2000년도 판이 있었고, phrap은 내가 알기로는 2000년대 들어서 한번도 개정된 바가 없었다. Consed는 내가 처음 쓰기 시작한 것이 12.0이었는데, 2007년 16.0에 이르기까지 꾸준히 개선되고 있다. 지금은 비영리 연구기관에 있다 보니 라이센스 비용이 들지 않는다는 것이 좋기는 하다.

가장 방대하고 익히기 어려운 것은 이중에서 consed가 아닐까 한다. 단순 텍스트로만 빽빽하게 되어있는 매뉴얼을 프린트 해 놓으면 그 분량만 해도 상당하다! 내 생각으로는 버젼 13.0번 쯤에서 assembly view 기능이 추가된 것이 가장 큰 진보가 아닐까 한다. 이제는 454 pyrosequencing의 결과도 완벽하지는 않지만 다룰 수 있게 되었다.

엄밀히 말하자면 나는 bioinformatics 또는 computational biology를 제대로 전공한 사람은 아니다. 따라서 서열 단편 합체의 이론 자체에 대해서 완벽한 수학적 이해를 하고 있지는 않다는 뜻이다. 그러나 본격적인 대용량 시퀀싱의 시대를 연 주역인 ABI 3700 DNA analyzer의 작동으로부터 서열 합체, 피니싱 그리고 genome annotation에 이르기까지의 전 과정을 직접 경험해 보았기에 누구보다도 할 말은 많다 :) 특히 이론가들이 간과하기 쉬운 작업 현장의 문제 - 예를 들자면 read name을 왜 바꾸어야 하는가의 문제 - 에 대해서는 비교적 소상하게 알고 있는 편이다.

Phred와 phrap은 이미 이론적으로 완성된 경지에 이른 프로그램이니 더 이상 업데이트가 되지 않는 것이 이상하지는 않다. 하지만 Consed는 그렇게 오랜 시간 동안을 David Gordon 한 사람에 의해서 계속 개선되어 오고 있다는 것이 놀랍기만 하다. Phil Green lab의 홈페이지에 가면 유난히 깡마른 체구의 David Gordon이 보인다. 미국 대학교의 교수 연구실 체제가 어떻게 돌아가는지는 잘 모르겠지만, 우리나라 같으면 교수와 사무원 빼고는 모두가 '들렀다가 나가는' 사람인 현실을 감안한다면 꾸준히 한 자리에 머무르면서 자기가 개발한 소프트웨어를 계속 책임질 수 있다는 것이 참으로 대단하게 느껴진다.

콘'세'드인가, 콘'시'드인가? 이에 대한 궁금증 때문에 David에게 직접 메일을 보낸 적이 있었다. 아마도 콘세드로 읽어달라는 답장을 받았던 것 같다. Phred는 Phil Green's read editor, Phrap은 Phil Green's assemly program, consed는 contig sequence editor 정도의 의미일 것이다 (앞의 두개는 확실한 것으로 기억한다).

댓글 2개:

Yoon Seong :

정해영 박사님 안녕하세요?
IVI의 전윤성입니다.
CA에chromatogram 데이터를 어떻게 Input 해야 하는지 자료를 찾다가 우연찮게 찾아 오게 되었습니다. 새해 복많이 받으십시요.

정해영 (Haeyoung Jeong) :

다시 만나서 반갑습니다, 전윤성님. 드디어 구글 블로거에 사이트를 만든 보람(?)이 있군요! 요즘 매뉴얼 비슷한 기술 자료를 만들고는 있는데 어떻게 릴리즈하는 것이 좋은 방법인지는 고민을 하는 중입니다... 일단은 업무상 파생된 자료이니만큼 저희 프로젝트 공식 홈페이지에 올리는 것이 좋을 것 같은데 말이지요.