[SEQanswere] DNA Internal Control Complex (P6)
SEQanswers에 의하면, control sequence는 raw read에는 당연히 존재하고 HGAP assembly에서도 제거되지는 않지만(왜냐하면 조립 시 콘트롤로서 쓰일 수 있으므로), resequencing 및 filtering 단계에서 없어진다고 한다. 서열 정보는
2kb_control_adaptor.gff를 참조하여 control DNA sequcence 26개를 잘라낸 뒤 phrap으로 조립을 하였다. 1966 bp의 contig가 만들어졌다. 이 control sequence는 실제로 생명체에 존재하는 DNA를 기반으로 만들어진 것인지, 혹은 완전히 "설계"된 인공적인 서열일까? UniProt에서 blastx를 해 보았지만 최소한 알려진 단백질 서열에 대해서 의미있는 매치는 보이지 않는다.
만약 SMRT analysis(HGAP)을 사용하여 조립하지 않은 genome sequence라면 control에서 유래한 서열을 제거하지 않은 상태로 NCBI에 그대로 제출하는 사람도 있을 것이다. phrap으로 얻은 1966 bp sequence를 가지고 NCBI에서 blastn을 해 보았다(nucleotide collection 대상). 역시! 어디에나 부주의한 submitter는 존재한다. Weissella cibaria unnamed plasmid의 complete sequence(3467 bp)라고?
다음으로는 처리가 되지 않은 서열, 즉 긴 polymerase read의 일부를 가지고서 검색을 해 보았다. 앞부분 10 kb를 끊어서 같은 방법으로 검색을 해 보았다. 결과는 거의 같다. 그나마 다행인 것은 이렇게 control sequence를 제거하지 않은 submission이 그렇게 많지는 않다는 것이다.
P4-C2 케미스트리를 썼던 과거 데이터에는 internal control을 사용한 흔적이 없다. P5-C3 케미스트리는 한번도 접해보질 않아서 당시에는 어떠했었는지를 알 수 없다. HGAP이 아닌 다른 assembler를 쓰는 경우에는 최종 서열에 2 kb짜리 엉뚱한 contig가 여전히 남아있는지를 유의하여 살펴보도록 하자.
댓글 없음:
댓글 쓰기