2009년 10월 19일 월요일

Nature에 논문이 나갔다!

Genome evolution and adaptation in a long-term experiment with Escherichia coli
Jeffrey E. Barrick, Dong Su Yu, Sung Ho Yoon, Haeyoung Jeong, Tae Kwang Oh, Dominique Schneider, Richard E. Lenski, Jihyun F. Kim
Nature (18 October 2009) doi:10.1038/nature08480

지난 수년간 공을 들여온 프로젝트가 이제 하나의 논문으로 빛을 보게 되었다. 공저자의 한명으로서 큰 자부심을 느낀다. 대장균 B stain을 모델로 하여 가문(?)의 역사로부터 유전체 서열 결정, 분석에 이르는 세 편의 논문 역시 최근에 Journal of Molecular Biology에 나가게 되었다. 대용량 DNA sequencing을 업으로 삼은지 이제 10년째, 정말 큰 보람을 느끼고 있다.
Genome Sequences of Escherichia coli B strains REL606 and BL21(DE3)
In Press, Corrected Proof, Available online 26 September 2009
Haeyoung Jeong, Valérie Barbe, Choong Hoon Lee, David Vallenet, Dong Su Yu, Sang-Haeng Choi, Arnaud Couloux, Seung-Won Lee, Sung Ho Yoon, Laurence Cattolico, Cheol-Goo Hur, Hong-Seog Park, Béatrice Ségurens, Sun Chang Kim, Tae Kwang Oh, Richard E. Lenski, F. William Studier, Patrick Daegelen, Jihyun F. Kim

Tracing Ancestors and Relatives of Escherichia coli B, and the Derivation of B Strains REL606 and BL21(DE3)
In Press, Corrected Proof, Available online 15 September 2009
Patrick Daegelen, F. William Studier, Richard E. Lenski, Susan Cure, Jihyun F. Kim

Understanding the Differences between Genome Sequences of Escherichia coli B Strains REL606 and BL21(DE3) and Comparison of the E. coli B and K-12 Genomes
In Press, Corrected Proof, Available online 15 September 2009
F. William Studier, Patrick Daegelen, Richard E. Lenski, Sergei Maslov, Jihyun F. Kim

2009년 4월 30일 목요일

Consed 19.0에서 달라진 점

이건 뭐... 뒷북도 한참 뒷북이지만 어쨌든 정리해 보자. 사소한 버그 수정은 중요하지 않고, 새로 더해진 기능 중에서 가장 중요한 것은 Assembly view에서 Solexa read를 볼 수 있다는 것이다. 우리 연구실에서 Solexa data를 생산한 적은 있지만 실제 분석은 지금 ISB에 가 있는 윤성호 박사가 했었다. 당시 Maq(http://maq.sourceforge.net/)를 썼던 것으로 기억하는데, consed 19.0이 이 기능을 대신할 수 있는지는 잘 모르겠다.

엄청난 분량의 README 파일을 읽으려니 엄두가 나지 않는다. 하지만 나 스스로 consed의 고급 사용자라 자부하고 있으므로, 다음의 부분만 읽으면 되겠다.
  • USING SOLEXA READS
  • ADDING SOLEXA READS
  • ALIGNING SOLEXA READS AGAINST A LARGE GENOME AND SELECTING A SMALL REGION FOR VIEWING WITH CONSED
  • USING YOUR OWN SOLEXA DATA
  • USING 454 READS (NEWBLER ASSEMBLY)
  • USING 454'S NEWBLER ON YOUR OWN DATA
  • USING 454 READS (ALIGNING TO REFERENCE SEQUENCE )
  • ADDING ADDITIONAL 454 OR SOLEXA READS
  • SOLEXA AND 454 DATA--WHAT IS HAPPENING BEHIND THE SCENES
  • USING AUTOREPORT

Phred/Phrap/Consed 새 버전 설치하기

2009년도 첫 포스팅이다. 이건 해도 너무했다! :-)

2월 13일에 David Gordon이 새 버젼의 consed(19.0)가 나왔음을 알려왔다. 이와 더불에 phred/phrap도 모르는 사이에 update 판이 나와 있었다. 이번 기회에 새 버전을 설치하도록 하자.

먼저 내 리눅스 박스를 살펴보자. Core2Duo에 4기가 메모리가 설치된 그저 그런 평범한 데스크탑 PC이다. CentOS 5.1(i386)이 운영체제로서 설치되어 있다. 패키지는 오늘 날짜로 전부 업데이트된 상태이다.

[hyjeong@eos ~]$ uname -aLinux eos.kribb.re.kr 2.6.18-128.1.6.el5 #1 SMP Wed Apr 1 09:19:18 EDT 2009 i686 i686 i386 GNU/Linux

그럼 현재 깔린 프로그램의 버젼과 최신 버젼을 나열해 보자.

phred: 0.000925 (020425, 071220 beta)
phrap: 0.990319 (1.080812)
consed: 18.0 (19.0)

Phred update

새로 만든 바이너리를 /usr/local/genome/bin/에 복사하는 것으로 끝난다. phredpar.dat(020425)는 달라진 바가 없어서 그대로 둔다.

Phrap update

이전 버전과는 달리 .longreads나 .manyreads를 할 필요가 없다. make를 실행한 뒤 생성된 실행파일 cluster cross_match loco phrap phrap phrapview swat을 복사하는 것으로 끝난다.

Consed update

이건 딸린 식구(?)가 많아서 조심스럽게 작업해야 한다. 잡다한 부속 스크립트는 커스터마이징이 필요하기도 하고 바이너리와도 호환성 문제가 발생할 수 있다. 예를 들자면 새 버전의 consed는 버전 xyz 이상의 determineReadTypes.perl하고만 작동한다고 명시되어 있을 수도 있으니까.

consed 바이너리는 컴퓨터 아키텍쳐에 따라 다음과 같은 종류가 있다.

consed_linux32bit <- 가장 무난한 이것을 선택
consed_linux32bit_dyn
consed_linux64bit
consed_linux64bit_static
consed_linux_itanium

/usr/local/genome/bin/에 consed_linux32bit를 consed19_linux32bit라는 이름으로 복사한 다음 이를 consed라는 심볼릭 링크를 만들었다. 이 상태에서 적당한 ace 파일을 열어보니 아무런 문제가 없다. Ace file을 여는 속도가 약간 빨라졌다. 그리고 아무 read를 골라서 별개의 contig로 뽑아내기를 해 보니 이전 버전에서는 상당히 시간이 많이 걸렸었는데(20분 이상? 아마 버그였던 듯), 버전 19에서는 순식간에 된다.

이전에 쓰던 스크립트와 호환성에 문제가 있는지는 잘 모르겠다. 사용하다가 불편하면 그때그때 고치도록 하자.

흠, README를 보니 18.0에서 업그레이드하는 경우 tagRepeats.perl만 바꾸면 된다고 한다. 가만! 그런데 내가 쓰던게 16.0이었나보다! 이 복사 작업을 하면서 standard script에 어떤 것들이 추가되어 있는지 확인해 보자.

add454Reads.perl
addSolexaReads.perl
alignSolexaReads2Refs.perl
filter454Reads.perl
catPhdFiles.perl -> makePhdBall.perl
selectRegions.perl