2015년 2월 12일 목요일

NCBI WGS 등록 단계에서 서열 점검 작업이 좀 더 까다로와지다

NCBI에 WGS로 매번 서열을 등록하다보면 웹 인터페이스가 점점 복잡해지고 좀 더 많은 영역에서 세심하게 점검을 한다는 느낌이 든다. 2012년도에 등록하여 공개했던 고온성 효모의 scaffold 정보를 업데이트하기 위해 몇 개의 contig가 연결된 결과물을 새로 등록을 했더니 당시에는 아무런 지적이 없었던 일부 짧은 contig들을 제거하라는 오류 메시지가 배달되었다. 당시에도 세균 유전체 오염이나 어댑터 등에 대해 충분한 검증을 거친 뒤 등록을 완료했던 서열 뭉치였는데, 3년이 지난 지금 동일한 서열에 대해서 오염이라는 판정을 내리는 것이다. 그만큼 오염 여부를 검증하기 위한 레퍼런스 데이터베이스가 더욱 충실해졌음을 의미한다고 생각한다.

BioProjects, BioSamples, WGS 전부 인터페이스가 수시로 바뀐다. 하물며 내가 자료를 거의 등록하지 않는 다른 섹션도 마찬가지 아니겠는가. 단순한 변경이 아니라 많은 부분에서 개선이 이루어지고 있다고 믿는다. 현실이 이러하니 등록 화면을 캡쳐하여 교육용으로 사용한다는 것 자체가 의미가 없다. 매번 기록을 하는 것도 의미가 없다. 새로 등록 혹은 업데이트를 할 일이 생겼을 때, 그저 NCBI 웹사이트에 접속하여 새로 바뀐 인터페이스를 접하고 잠시 혼란에 빠져들었다가, 설명을 찬찬히 읽어보고 시키는 대로 하면 된다. 그렇게 어렵지도 않다. 궁금한 것이 생기면 이메일을 보내면 신속하게 답장이 온다.

Annotation이 없는 WGS를 다룰 때에는 항시 오염에 신경을 써야 한다. 이번에 삭제하라고 요청이 온 짧은 contig는 미토콘드리아 서열로 여겨지는 것들이었다. 만일 functional annotation을 충실히 했다면 당연히 서열 등록 전에 내가 걸러냈어야 한다. NGS 기술 덕분에 예전에는 상상도 하기 어려웠던 대량의 데이터를 적은 비용으로 생산하게 된 것은 대단히 즐거운 일이지만 그만큼 만들어진 데이터를 하나하나 음미하고 철저히 점검하는데 들이는 시간은 줄어든 셈이다. 완전히 연결된 하나의 고리 형태로 세균의 염색체를 만들어 내던 시절에는 간혹 남아있는 오염 데이터를 그대로 등록할리가 없는 것이다. 그러나 contig가 100개 혹은 그 이상으로 많이 다루게 되면 상대적으로 이런 점검 작업에 소홀할 수밖에 없다. NGS 시대의 '빛과 그림지'에 해당하는 현상이다.

KOBIC 생명정보 강좌 도중에 몇 자 적었다. 죄송합니다, 강사님^^

댓글 없음: