IMG/ER에는 계정을 만들어서 작업을 해 본 일이 있지만 GOLD를 통해서 annotation까지 해 본 일은 없기에, 이번에 연습 삼아서 처음으로 진행해 보기로 하였다.
GOLD 사이트에 들어가면 1. Register라는 메뉴가 있다. NGBI에서 BioProject를 등록하는 것과 비슷하게 정보를 넣으면 된다. NCBI와 다른 점은 Study, Biosample, Sequencing Project를 한번에 등록한다는 점이다.
NCBI에서는 SRA(sequence read archive)에 NGS raw read를 등록할 때 비로소 필수 조건으로서 BioSample을 등록하게 된다. 따라서 개념을 잡기가 조금 까다로운데, GOLD에서는 다음과 같이 친절하게 설명이 붙어 있다.
Biosample is the original place of the physical sample, from where the DNA was isolated.
프로젝트에 대한 기본 등록을 마친 뒤 AP, 즉 analysis project를 등록하고 assembly 파일을 제출하였다. NCBI에 이미 12개의 PacBio 유래 contig가 등록되어 공개된 상태라서 웹 브라우저에서 ftp 사이트를 열어놓고 간편하게 등록하였다. 파일을 다운로드하여 다시 밀어넣을 필요가 없이 단지 ftp link를 복사해 넣으면 된다.
SIGC 저널에서 필수 테이블로 요구하는 정보에는 다음과 같은 것들이 있다.
Pseudo genes
|
Genes in internal clusters
|
Genes with function prediction
|
Genes assigned to COGs
|
Genes with Pfam domains
|
Genes with signal peptides
|
Genes with transmembrane helics
|
CRISPR repeats
|
NCBI Prokaryotic Genome Automatic Annotation Pipeline(PGAAP)에도 분석을 의뢰해 놓은 상태이다. 표의 내용을 채우려니 약간 번거로운 일을 할 필요는 있겠다. COG 정보는 PGAAP에서 수치로 얻을 수 있는데, 나머지는 다른 프로그램을 돌려서 수작업으로 집계해야 할지도 모른다.
KOBIC에서 바쁘게 일하는 동안 실무 작업에서 손을 많이 놓고 있었다. 이제 다시 정상을 찾아가는 중이다. 나 책임연구원 맞아...?
댓글 없음:
댓글 쓰기