2015년 3월 3일 화요일

아르테미스의 RefSeq 레코드(GenBank 포맷) 읽기 실수

다음의 스크린샷을 보라. 실험실에서 늘 가지고 노는 대장균 K-12 MG1655의 RefSeq record를 GenBank 포맷으로 받아서 artemis로 열었다.



CDS feature 안에는 stop codon('|'으로 표시)이 난무하고 염기서열에는 NNN이 떡칠이 되어있다. 있을 수 없는 일이다. 염기서열의 첫위치를 가 보자. CNNTNGNNN... 이게 도대체 뭐지?

용의자를 색출해 보자. feature table의 끝과 염기서열이 시작되는 부분에 단서가 있을 것으로 생각된다.

CONTIG      join(U00096.3:1..4641652)
ORIGIN
        1 agcttttcat tctgactgca acgggcaata ....

"CONTIG"로 시작하는 라인이 artemis에게 생소할 수도 있겠다. 이게 바로 CNNTNG 아니겠는가? 이 줄을 지워버렸다. 역시 예상한 바와 같이 깔끔하게 표시된다. 앞에 '#'을 달아서 주석 비슷하게 만들어도 효과는 같다.

"CONTIG"로 시작하는 라인은 같은 유전체의 GenBank 레코드에서는 보이지 않는다. 사실은 왜 artemis에서 서열과 feature가 이렇게 깨어져 나오는지 그 이유를 알지 못해서 몇달을 고민했었다. 원인은 너무나 간단하였다.

댓글 없음: