2017년 4월 19일 수요일

PacBio control sequence를 genome assembly로 NCBI에 등록한 사람은 전부 한국인?

조금 전에 PacBio의 internal control complex sequence를 de novo assembly에 남겨두는 실수라는 글을 포스팅하였다. 우연의 일치로 control sequence가 생명체의 유전체 서열에 고유하게 존재하는 염기서열과 비슷할 가능성도 있다. 그런데 1 kb 이상의 영역이 99~100%의 identity로 매치한다면, 그리고 이들 생물종 사이에 아무런 상관관계가 없다면, 시퀀싱 반응 점검용으로 투입한 인공 서열을 최종 단계에서 제거하지 못한 것으로 보는 것이 더 타당할 것이다.

BLAST 검색에서 다음의 3개는 거의 확실한 매치를 보인다.

  • Weissella cibaria strain CMU plasmid unnamed2, complete sequence CP013938.1
  • Acinetobacter baumannii strain JBA13 plasmid pJBA13_2, complete sequence CP020583.1
  • Raoultella ornithinolytica strain MG, complete genome CP017802.1
앞의 두 개는 plasmid sequence라고 보고한 것이다. 아마도 짧은 contig가 남으니 이를 plasmid라고 여긴 모양이다. 세번째 것은 complete genome sequence로 보고한 것의 내부에서 약 940 bp 단위로 여러 차례 존재하는 것으로 되어있다.


안타까운 것은 이들 서열의 등록자가 전부 한국인 연구자라는 것이다. 일루미나 시퀀싱용 콘트롤 DNA인 PhiX174의 서열이 그대로 GenBank에 등록되는 문제에 대해서는 이미 잘 알려져 있다. Genome sequence에 이것이 그대로 남아있는 것을 몇 가지 기생충 유전체 서열에서 찾은 일이 있는데... 이것 역시 제출자는 한국인이었던 것으로 기억한다.

이러한 나의 해석이 과도한 것일 수도 있다. 정말 그랬으면 좋겠다. 한국인 연구자가 깨끗하고 정확한 유전체 정보를 제공하는데 더 많이 기여했으면 한다. 

댓글 없음: