2014년 2월 19일 수요일

NCBI에 Genome Sequencinging 자료 올리기

바이오프로젝트 등록, WGS 제출, SRA 제출... 모두 밥먹듯이 하는 일이지만 매번 인터페이스가 조금씩 바뀐다. 이번에는 Bacillus thuringiensis serovar israelensis의 한 종류에 대한 draft assembly를 등록하는 중인데, 균주 분리 장소와 일자를 적는 난에서 막히고 말았다. 만약 내가 처음으로 그 균주를 분리 동정한 사람이라면 이러한 정보를 적는데 아무런 어려움이 없을 것이다. 하지만 culture collection에서 입수한 균주를 시퀀싱한 경우에는 상당히 난감하다. 홈페이지에도 해당 정보가 없고, 논문에서도 정확히 알기 어려운 때가 많다. 심지어 100여년 전에 자연계에서 분리되어 실험실 스탁으로 자리를 잡았지만 최초에 어느 환경에 분리했는지가 명확히 남아있지 않는 균주도 부지기수이다. 대표적인 것이 실험실 스트레인인 대장균 B 아니겠는가.

Genome project는 어느 한 사람이 진행할 수 있는 성질의 것은 아니다. 다만 내 손으로 직접 fragment assembly를 하고, finishing을 한 미생물이라 할 수 있는 것은 다음과 같은 것들이 있다. 대부분 Sanger sequencing 시대의 유물들이다. 국내 (microbial) genome 시대의 초기 역사가 내 손을 거쳐간 셈이다.

Mannheimia succiniciproducens MBEL 55E
Vibrio vulnificus CMCP6
Hahella chejuensis KCTC 2396
Leuconostoc citerum KM20
Paenibacillus polymyxa E681
Escherichia coli BL21(DE3)
Escherichia coli BL21..곧 공개 예정
Escherichia coli W
Hansenular polymorpha (비공개)

최근에는 NGS 기법으로 다수의 샘플을 훑어나가듯이 해독하는 것이 대부분이라 complete genome까지 완수하는 경우는 별로 없다. 단, 매우 가까운 생물체의 유전체가 reference로 존재하는 상황이라면 mapping과 서열 조작을 절묘하게(!) 조합하여 completion을 할 수도 있다. 지난주에 작업을 마친 BL21이 바로 그러한 예이다.

댓글 없음: