2017년 4월 19일 수요일

PacBio의 internal control complex sequence를 de novo assembly에 남겨두는 실수

PacBio의 DNA internal control complex (P6) insert라는 것은 2 kb 길이의 template를 DNA polymerase P6에 붙인 것으로, spike-in control로서 시퀀싱 반응에 첨가하는 용도로 쓰인다. P6-C4 chemistry로 읽은 PacBio long read sequencing 결과를 SMRT analysis에서 검토하다가, 문득 이 control의 서열은 어떻게 되는지, 그리고 그 서열이 raw data에는 어떻게 존재하며 최종 assembly에는 확실히 제거가 되는지 궁금해졌다.

[SEQanswere] DNA Internal Control Complex (P6)

SEQanswers에 의하면, control sequence는 raw read에는 당연히 존재하고 HGAP assembly에서도 제거되지는 않지만(왜냐하면 조립 시 콘트롤로서 쓰일 수 있으므로), resequencing 및 filtering 단계에서 없어진다고 한다. 서열 정보는 /common/userdata/references/*control*에 존재하지만 FASTA 파일을 열어보면 총 길이가 52,442 bp나 된다. 2 kb 라이브러리라면서 왜 이렇게 긴가? 그것은 SMRTbell library로부터 만들어진 polymerase read이기 때문이다. 즉 Fwd_tc6 adaptor - forward 2 kb - Rev_tc6_adaptor - reverse 2 kb read...가 반복된 상태의 서열이 수록된 것이다.

2kb_control_adaptor.gff를 참조하여 control DNA sequcence 26개를 잘라낸 뒤 phrap으로 조립을 하였다. 1966 bp의 contig가 만들어졌다. 이 control sequence는 실제로 생명체에 존재하는 DNA를 기반으로 만들어진 것인지, 혹은 완전히 "설계"된 인공적인 서열일까? UniProt에서 blastx를 해 보았지만 최소한 알려진 단백질 서열에 대해서 의미있는 매치는 보이지 않는다.

만약 SMRT analysis(HGAP)을 사용하여 조립하지 않은 genome sequence라면 control에서 유래한 서열을 제거하지 않은 상태로 NCBI에 그대로 제출하는 사람도 있을 것이다. phrap으로 얻은 1966 bp sequence를 가지고 NCBI에서 blastn을 해 보았다(nucleotide collection 대상). 역시! 어디에나 부주의한 submitter는 존재한다. Weissella cibaria unnamed plasmid의 complete sequence(3467 bp)라고?



다음으로는 처리가 되지 않은 서열, 즉 긴 polymerase read의 일부를 가지고서 검색을 해 보았다. 앞부분 10 kb를 끊어서 같은 방법으로 검색을 해 보았다. 결과는 거의 같다. 그나마 다행인 것은 이렇게 control sequence를 제거하지 않은 submission이 그렇게 많지는 않다는 것이다.


P4-C2 케미스트리를 썼던 과거 데이터에는 internal control을 사용한 흔적이 없다. P5-C3 케미스트리는 한번도 접해보질 않아서 당시에는 어떠했었는지를 알 수 없다. HGAP이 아닌 다른 assembler를 쓰는 경우에는 최종 서열에 2 kb짜리 엉뚱한 contig가 여전히 남아있는지를 유의하여 살펴보도록 하자.

댓글 없음: