마지막으로 사용한 consed의 버전이 23.0이다. Consed는 Sanger sequencing 시절, 거의 유일한 finishing 도구로서 나에게는 대단히 중요한 프로그램이었다. 최근 약 1년 반에 걸쳐서 이쪽 실무를 거의 하지 못했고 더군다나 permanent "high" quality draft로만 남게되는 NGS(주로 일루미나) 유래의 assembly만 전적으로 다루다 보니 consed의 업데이트는 상대적으로 소홀했었다. 최근 resequecing을 통해 거의 완성 수준으로 만들어진 bacterial genome을 깨끗하게 마무리하고자 consed의 최신 버전인 28.0을 받았다. 이 프로그램의 개발자인 University of Washington의 David Gordon은 언제나 답장이 빠르다.
시퀀싱용 프라이머를 선정할 때 파라미터를 자동적으로 완화하는 기능은 아마도 지금보다 수 버전 이전에 추가된 기능일 것이다. 가장 생소한 것은 bamScape라는 것이다. REAME.txt를 보니 BAM file viewer로 소개되어 있다.
Reference 위에 정렬된 read의 상태를 problem 또는 variant의 측면에서 탐색을 해 나가는 시각화 도구라고 생각된다.
454 시절만 하더라도 NGS read 단위의 편집을 consed에서 할 수 있었다. contig들을 read 단위로 끊고, read들을 따로 뽑아서 miniassembly를 하고, read의 서열을 직접 수정하고... 지금은? 일루미나 데이터는 너무나 양이 많아서 도저히 불가능이다. 한 contig에 수직선을 그으면 2-300은 기본이요, 많게는 1000개나 되는 read가 중첩되어 있다. CLC Genomics Workbench에서 전반적인 상황을 판단하는 것은 가능하지만, 환경을 바꾸어서 consed에서 이 데이터를 그대로 가져와서 작업을 하는 것은 어렵다. 그래서 내가 주로 쓰는 방법은 NGS assembly에서 문제가 없음이 확인된 부분을 가상 Sanger read가 중첩된 assembly로 바꾸어서(ace file을 생성) 이를 consed로 가져와서 편집을 하는 것이다. 마지막 단계의 편집에서 가장 중요한 단서는 바로 Sanger read이다.
BAM 파일을 다룰 수 있게 한다거나, NGS read와 관련된 기능을 추가함으로써 consed도 새 시대에 맞는 도구로 변신하기 위해 노력을 계속 해 오고 있는 것이 너무나 반갑다. 비록 소박한 그래픽 기능을 사용하는 도구이지만, genome research를 해 오는 거의 모든 연구자에게 아직도 잊혀질 수 없는 소중한 수단인 것이다.
댓글 없음:
댓글 쓰기