2009년 4월 30일 목요일

Consed 19.0에서 달라진 점

이건 뭐... 뒷북도 한참 뒷북이지만 어쨌든 정리해 보자. 사소한 버그 수정은 중요하지 않고, 새로 더해진 기능 중에서 가장 중요한 것은 Assembly view에서 Solexa read를 볼 수 있다는 것이다. 우리 연구실에서 Solexa data를 생산한 적은 있지만 실제 분석은 지금 ISB에 가 있는 윤성호 박사가 했었다. 당시 Maq(http://maq.sourceforge.net/)를 썼던 것으로 기억하는데, consed 19.0이 이 기능을 대신할 수 있는지는 잘 모르겠다.

엄청난 분량의 README 파일을 읽으려니 엄두가 나지 않는다. 하지만 나 스스로 consed의 고급 사용자라 자부하고 있으므로, 다음의 부분만 읽으면 되겠다.
  • USING SOLEXA READS
  • ADDING SOLEXA READS
  • ALIGNING SOLEXA READS AGAINST A LARGE GENOME AND SELECTING A SMALL REGION FOR VIEWING WITH CONSED
  • USING YOUR OWN SOLEXA DATA
  • USING 454 READS (NEWBLER ASSEMBLY)
  • USING 454'S NEWBLER ON YOUR OWN DATA
  • USING 454 READS (ALIGNING TO REFERENCE SEQUENCE )
  • ADDING ADDITIONAL 454 OR SOLEXA READS
  • SOLEXA AND 454 DATA--WHAT IS HAPPENING BEHIND THE SCENES
  • USING AUTOREPORT

Phred/Phrap/Consed 새 버전 설치하기

2009년도 첫 포스팅이다. 이건 해도 너무했다! :-)

2월 13일에 David Gordon이 새 버젼의 consed(19.0)가 나왔음을 알려왔다. 이와 더불에 phred/phrap도 모르는 사이에 update 판이 나와 있었다. 이번 기회에 새 버전을 설치하도록 하자.

먼저 내 리눅스 박스를 살펴보자. Core2Duo에 4기가 메모리가 설치된 그저 그런 평범한 데스크탑 PC이다. CentOS 5.1(i386)이 운영체제로서 설치되어 있다. 패키지는 오늘 날짜로 전부 업데이트된 상태이다.

[hyjeong@eos ~]$ uname -aLinux eos.kribb.re.kr 2.6.18-128.1.6.el5 #1 SMP Wed Apr 1 09:19:18 EDT 2009 i686 i686 i386 GNU/Linux

그럼 현재 깔린 프로그램의 버젼과 최신 버젼을 나열해 보자.

phred: 0.000925 (020425, 071220 beta)
phrap: 0.990319 (1.080812)
consed: 18.0 (19.0)

Phred update

새로 만든 바이너리를 /usr/local/genome/bin/에 복사하는 것으로 끝난다. phredpar.dat(020425)는 달라진 바가 없어서 그대로 둔다.

Phrap update

이전 버전과는 달리 .longreads나 .manyreads를 할 필요가 없다. make를 실행한 뒤 생성된 실행파일 cluster cross_match loco phrap phrap phrapview swat을 복사하는 것으로 끝난다.

Consed update

이건 딸린 식구(?)가 많아서 조심스럽게 작업해야 한다. 잡다한 부속 스크립트는 커스터마이징이 필요하기도 하고 바이너리와도 호환성 문제가 발생할 수 있다. 예를 들자면 새 버전의 consed는 버전 xyz 이상의 determineReadTypes.perl하고만 작동한다고 명시되어 있을 수도 있으니까.

consed 바이너리는 컴퓨터 아키텍쳐에 따라 다음과 같은 종류가 있다.

consed_linux32bit <- 가장 무난한 이것을 선택
consed_linux32bit_dyn
consed_linux64bit
consed_linux64bit_static
consed_linux_itanium

/usr/local/genome/bin/에 consed_linux32bit를 consed19_linux32bit라는 이름으로 복사한 다음 이를 consed라는 심볼릭 링크를 만들었다. 이 상태에서 적당한 ace 파일을 열어보니 아무런 문제가 없다. Ace file을 여는 속도가 약간 빨라졌다. 그리고 아무 read를 골라서 별개의 contig로 뽑아내기를 해 보니 이전 버전에서는 상당히 시간이 많이 걸렸었는데(20분 이상? 아마 버그였던 듯), 버전 19에서는 순식간에 된다.

이전에 쓰던 스크립트와 호환성에 문제가 있는지는 잘 모르겠다. 사용하다가 불편하면 그때그때 고치도록 하자.

흠, README를 보니 18.0에서 업그레이드하는 경우 tagRepeats.perl만 바꾸면 된다고 한다. 가만! 그런데 내가 쓰던게 16.0이었나보다! 이 복사 작업을 하면서 standard script에 어떤 것들이 추가되어 있는지 확인해 보자.

add454Reads.perl
addSolexaReads.perl
alignSolexaReads2Refs.perl
filter454Reads.perl
catPhdFiles.perl -> makePhdBall.perl
selectRegions.perl