이 작업을 하는 도중에 GenBank에는 존재하지만 해당되는 자료가 RefSeq에 없는 것을 세 건 발견하였다. 원칙적으로 NCBI에는 assembly accession에서 접두어(GCA: GenBank, GCF: RefSeq)만 달리한 두 레코드가 존재해야 한다. 다음의 자료는 이에 해당하는 RefSeq 자료가 없다. 아래에 표시한 것은 GenBank assembly에 대한 링크이다. 여기를 클릭해 들어가면 왜 그러한지를 짐작할 수 있다.
https://www.ncbi.nlm.nih.gov/assembly/GCA_001447315.1
- many frameshifted proteins
https://www.ncbi.nlm.nih.gov/assembly/GCA_001874405.2
https://www.ncbi.nlm.nih.gov/assembly/GCA_001874425.2
뒤의 두 자료는 단지 'suppressed'라고만 적혀있다. 어떤 자료가 suppress될 운명에 처하는 것일까? Prokaryotic RefSeq Genome Re-annotation Project에 그 설명이 있었다.
Suppressed genomes: Several hundred RefSeq bacterial genomes that did not pass assembly or annotation quality validation have been suppressed. An FTP report file listing the most recent suppressions will be provided soon in the RefSeq FTP site.
RefSeq FAQ 페이지에서도 상세한 설명을 볼 수 있다. Suppressed accession에 대한 상세한 정보는 두 달에 한번 배포되는 RefSeq release(2018년 2월 현재 release86)의 README 파일을 참조하라. NCBI의 자료를 편하게 다운로드하여 쓸 생각만 했지 accession이 바뀌거나 사라진(임시 혹은 영구적) 경우까지 감안해야 할 줄은 몰랐다. 제출자에 의한 update 이상의 일이 벌어지고 있음을 비로소 깨닫게 되었다.
댓글 없음:
댓글 쓰기