2014년 11월 28일 금요일

GOLD(Genomes OnLine Database)에서 유전체 주석화 실시하기

경북대학교와 공동으로 진행하는 미생물 유전체 프로젝트가 몇가지 있다. 그 중에서 하나를 Standards In Genomics Sciences(SIGS)라는 저널에 발표하기로 하였다. 이 저널에서는 시퀀싱, 주석화 및 균주 특성 등을 정해진 포맷에 맞추어서 정리하여 제출해야 한다. 그리고 GOLD(Genomes OnLine Database)에서 프로젝트를 등록하기를 의무적으로 요청하는 것으로 보인다.

IMG/ER에는 계정을 만들어서 작업을 해 본 일이 있지만 GOLD를 통해서 annotation까지 해 본 일은 없기에, 이번에 연습 삼아서 처음으로 진행해 보기로 하였다.

GOLD 사이트에 들어가면 1. Register라는 메뉴가 있다. NGBI에서 BioProject를 등록하는 것과 비슷하게 정보를 넣으면 된다. NCBI와 다른 점은 Study, Biosample, Sequencing Project를 한번에 등록한다는 점이다.

NCBI에서는 SRA(sequence read archive)에 NGS raw read를 등록할 때 비로소 필수 조건으로서 BioSample을 등록하게 된다. 따라서 개념을 잡기가 조금 까다로운데, GOLD에서는 다음과 같이 친절하게 설명이 붙어 있다.

Biosample is the original place of the physical sample, from where the DNA was isolated.

프로젝트에 대한 기본 등록을 마친 뒤 AP, 즉 analysis project를 등록하고 assembly 파일을 제출하였다. NCBI에 이미 12개의 PacBio 유래 contig가 등록되어 공개된 상태라서 웹 브라우저에서 ftp 사이트를 열어놓고 간편하게 등록하였다. 파일을 다운로드하여 다시 밀어넣을 필요가 없이 단지 ftp link를 복사해 넣으면 된다.

SIGC 저널에서 필수 테이블로 요구하는 정보에는 다음과 같은 것들이 있다.

Pseudo genes
Genes in internal clusters
Genes with function prediction
Genes assigned to COGs
Genes with Pfam domains
Genes with signal peptides
Genes with transmembrane helics
CRISPR repeats











NCBI Prokaryotic Genome Automatic Annotation Pipeline(PGAAP)에도 분석을 의뢰해 놓은 상태이다. 표의 내용을 채우려니 약간 번거로운 일을 할 필요는 있겠다. COG 정보는 PGAAP에서 수치로 얻을 수 있는데, 나머지는 다른 프로그램을 돌려서 수작업으로 집계해야 할지도 모른다. 

KOBIC에서 바쁘게 일하는 동안 실무 작업에서 손을 많이 놓고 있었다. 이제 다시 정상을 찾아가는 중이다. 나 책임연구원 맞아...?


댓글 없음: