2010년 4월 12일 월요일

gsAssembler 2.0.0을 이용한 hybrid assembly

Sanger read(screened fasta file and quality file)내부에 각 read의 정보를 넣는 것이 관건이다. 우선 다음과 같은 스크립트를 만들어서 detPair.pl이라 이름을 짓는다. 여기서는 *.f1 또는 *.r1이라는 형식의 read tag을 쓰게 되어있다. 나는 주로 St. Louis convention(*.b1, *.g1)을 사용하므로 이를 약간 수정해야 했다.


그 다음에 할 일은 phred와 cross_match를 통해 screened sequence file을 만드는 것이다. edit_dir에서 phredPhrap 한번만 타이프하면 되지만, 공부를 하자는 의미에서 순서대로 적어 보도록 한다. Sanger ab1 file들이 chromat_dir에 있다고 가정하자.
phred -id chromat_dir -pd phd_dir
(determineReadTypes.perl은 별로 필요하지 않다)
phd2fasta -id phd_dir -os sequence.fasta -oq sequence.fasta.qual
cross_match -minmatch 12 -penalty -2 -minscore 20 -screen sequence.fasta
여기까지 하면 sequence.fasta.screen과 sequence.fasta.screen.qual 파일이 생길 것이다. 이제 다음과 같이 한다.
detPairs.pl sequence.fasta.screen > sanger.acc
fnafile -o sanger.fna -af sanger.acc sequence.fasta.screen
이제 만들어진 sanger.fasta와 sanger.qual을 gsAssembler에 넣어주면 된다.
다른 사용자를 통해 물어보니 Sanger paired end read를 넣어 주면 scaffold는 생성되지만, mate의 정보(clone insert size & direction)를 assembly에 직접 활용하지는 않는 것 같다. 만일 그렇다면, 라이브러리별로 크기에 대한 정보를 넣어 주어야 하나 그런 배려는 없다.
(참고자료: GS FLX software manual 5.5.4)