2008년 1월 26일 토요일

Phred/phrap/consed

미생물 유전체 해독에서 아직까지 가장 널리 쓰이고 있는 소프트웨어 패키지가 바로 phred/phrap/consed이다. Phred는 basecaller, phrap은 fragment assembler, 그리고 consed는 contig viewer & editor이다. 내가 이 프로그램을 처음 접한 것은 2000년도 였던 것으로 기억한다. 당시 (주)제노텍에 근무하고 있었으므로 University of Washington에 $10,000의 라이센스 비용을 지불하고 사용권을 얻었다. Phred는 99년도 판과 2000년도 판이 있었고, phrap은 내가 알기로는 2000년대 들어서 한번도 개정된 바가 없었다. Consed는 내가 처음 쓰기 시작한 것이 12.0이었는데, 2007년 16.0에 이르기까지 꾸준히 개선되고 있다. 지금은 비영리 연구기관에 있다 보니 라이센스 비용이 들지 않는다는 것이 좋기는 하다.

가장 방대하고 익히기 어려운 것은 이중에서 consed가 아닐까 한다. 단순 텍스트로만 빽빽하게 되어있는 매뉴얼을 프린트 해 놓으면 그 분량만 해도 상당하다! 내 생각으로는 버젼 13.0번 쯤에서 assembly view 기능이 추가된 것이 가장 큰 진보가 아닐까 한다. 이제는 454 pyrosequencing의 결과도 완벽하지는 않지만 다룰 수 있게 되었다.

엄밀히 말하자면 나는 bioinformatics 또는 computational biology를 제대로 전공한 사람은 아니다. 따라서 서열 단편 합체의 이론 자체에 대해서 완벽한 수학적 이해를 하고 있지는 않다는 뜻이다. 그러나 본격적인 대용량 시퀀싱의 시대를 연 주역인 ABI 3700 DNA analyzer의 작동으로부터 서열 합체, 피니싱 그리고 genome annotation에 이르기까지의 전 과정을 직접 경험해 보았기에 누구보다도 할 말은 많다 :) 특히 이론가들이 간과하기 쉬운 작업 현장의 문제 - 예를 들자면 read name을 왜 바꾸어야 하는가의 문제 - 에 대해서는 비교적 소상하게 알고 있는 편이다.

Phred와 phrap은 이미 이론적으로 완성된 경지에 이른 프로그램이니 더 이상 업데이트가 되지 않는 것이 이상하지는 않다. 하지만 Consed는 그렇게 오랜 시간 동안을 David Gordon 한 사람에 의해서 계속 개선되어 오고 있다는 것이 놀랍기만 하다. Phil Green lab의 홈페이지에 가면 유난히 깡마른 체구의 David Gordon이 보인다. 미국 대학교의 교수 연구실 체제가 어떻게 돌아가는지는 잘 모르겠지만, 우리나라 같으면 교수와 사무원 빼고는 모두가 '들렀다가 나가는' 사람인 현실을 감안한다면 꾸준히 한 자리에 머무르면서 자기가 개발한 소프트웨어를 계속 책임질 수 있다는 것이 참으로 대단하게 느껴진다.

콘'세'드인가, 콘'시'드인가? 이에 대한 궁금증 때문에 David에게 직접 메일을 보낸 적이 있었다. 아마도 콘세드로 읽어달라는 답장을 받았던 것 같다. Phred는 Phil Green's read editor, Phrap은 Phil Green's assemly program, consed는 contig sequence editor 정도의 의미일 것이다 (앞의 두개는 확실한 것으로 기억한다).

phred/phrap/consed, AMOS, 그리고 Celera Assembler

미생물 유전체 프로젝트의 실무를 맡은지도 올해로 벌써 9년째이다. 한가지 분야의 일에 오래 종사하다 보니 자잘한 노하우도 꽤 많이 축적한 셈이 되었다. 고속 시퀀싱 기술이 유행하고는 있지만 실제 자기 손으로 유전체 프로젝트를 다루어 본 사람은 많지 않은 것 같다. 대학원이나 벤쳐 기업의 경우 인력의 이동이 잦다 보니 실무 경험을 가진 사람이 유지되기 어렵고, 정부출연연구소의 경우에는 정규직 연구원이 되고 나면 조금씩 실무에서 멀어지는 경향이 있어서 역시 그 기술이 유지되기 어려운 경우를 많이 보았다.

유전체 프로젝트는 수요가 꾸준하지만 막상 열의를 가지고 배우려는 사람이 많지 않다. 어쩌면 이것이 그동안 내가 후배들을 양성하지 못한 핑계(?)일지도 모르겠다. 내가 알고 있는 지식을 직접 사람들에게 전달할 기회가 생기지 않는다면, 온라인을 통해서 할 수도 있는 것 아니겠는가? 그동안 나는 얼마나 많은 지식을 인터넷을 통해 입수했는가? 미력하나마 이제는 내가 정보의 제공자 역할을 할 때가 된 것 같다.

어제부터 AMOS 및 셀레라 어셈블러 활용 매뉴얼 문서를 작성하기 시작하였다. 얼마나 걸릴지는 모르겠지만 이제는 나를 위해서도 해야 하는 일이라 생각한다. 사실 미생물 유전체 해독 문제로 나에게 SOS를 치는 친구나 동료 과학자가 상당히 있다. 내 몸이 한개이니 이들이 원할때마다 방문하여 조언을 하기는 어렵다. 대신 온라인을 통해 공개하려고 한다. 기밀이 필요한 연구 분야도 있지만, 내가 하는 분야는 그렇지는 않다. 이것이 국민의 세금으로 운영되는 정부출연연구소의 연구자가 갖출 마땅한 자세라고 생각한다.

2008년 1월 15일 화요일

사진 올리기 성공

bloggers.com 도메인에 대한 쿠키 차단을 해제했더니 비로소 사진이 올라가게 되었다. 이렇게 하는 것이 맞는 것인지는 잘 모르겠지만^^

최저 -7도, 최고 0도의 제법 추운 겨울날씨이다.

2008년 1월 10일 목요일

왜 프로필 작성을 하는데 사진이 안올라가지?

프로필 작성을 하는데 사진이 업로드되지 않고 있다. 이유가 뭘까...

왜 프로필 작성을 하는데 사진이 안올라가지?

프로필을 수정하기 위해 사진 파일을 지정했지만 업로드가 되지 않는다. 왜그럴까?

구글의 블로그 서비스를 처음 시작하면서

그동안 네이버의 블로그를 사용해 왔는데, 가장 강력한 검색 엔진인 구글에서 내 블로그가 전혀 검색되지 않는다는 사실을 알게 되었다. 오로지 네이버를 통해서만 내 정보를 검색할 수 있다는 것은 답답하지 않은가? 구글에서 이런 서비스를 한다고 하니 정말 다행스러울 따름이다.