2008년 5월 23일 금요일

진정한 454/Sanger hybrid assembly

오랜만에 글을 올리게 되었다. 웹을 뒤져보니까 Bastien Chevreux라는 사람이 454/Solexa/Sanger read를 섞어서 합체할 수 있는 MIRA라는 공개 소프트웨어를 개발하고 있음을 알게 되었다.

http://chevreux.org/projects_mira.html

454 data와 Sanger data를 섞어서 작업하는 대부분의 전략에서는 454 consensus를 하나의 read로서 다룬다는 것이 근본적인 제약이다. 하지만 MIRA에서는 454 raw read를 있는 그대로 다룬다고 한다.

해 본 사람을 알겠지만, GS FLX standard run에서 만들어진 SFF file에서 염기서열과 quality score를 파일로 추출한 다음 phrap을 하면 4 GB 정도의 메모리를 가진 보통의 리눅스 머신에서는 진행이 되지 않는다. phrap이 좋은 프로그램이기는 하나 대용량의 데이터를 다루기에는 적합하지 않다. PCAP이나 Celera Assembler와 같이 multiple processor를 지원하는 대용량 데이터용 서열 합체 프로그램은 short read와는 궁합이 맞지 않는다.

기존의 소프트웨어를 이용하여 454 data와 Sanger data를 섞어서 합체하는 전략에 대한 간단한 논문을 쓰고 있다...