2021년 8월 6일 금요일

반가운 COG 2020

COG(Clusters of Orthologous Groups)는 미생물 유전체를 다루는 사람들에게는 매우 잘 알려진 데이터베이스이자 분석 도구이다. 오리지널 페이퍼가 1997년에 나왔으니(링크) 이제는 고전이 된 '지식'이라고 보아도 무방할 것이다. 2014년에 마지막 업데이트가 된 이후로 거의 신경을 쓰지 않고 있었다. 왜냐하면 매우 편리한 유전체 주석화 도구(RAST server, Prokka or PGAP)이 있어서 특별히 진화적 관점에서 각 유전자를 살펴볼 것이 아니라면 COG 체계를 다시 열어볼 필요가 없었기 때문이다. Protein set이 준비되어 있을 때 각각에 대하여 COG를 할당하는 소프트웨어가 그렇게 친절하지 않다는 것도 한 원인이 되었다. 웹사이트에다 단백질 세트를 밀어 넣으면 알아서 계산을 해주는 방식이 아니기 때문이다.

COG 개발자들은 방대한 박테리아의 유전체 자료를 다루면서 각 단백질 패밀리의 구조와 기능, 진화적 관련성, 이들 단백질이 관여하는 대사 기능 등에 대해서 얼마나 많은 지식을 알고 있을까? 항상 시급한 과제에 매달려서 각 종에 대한 단편적인 지식만을 쌓고 있는 나는 이런 연구자들이 정말 부럽다. 얼마 되지 않는 목초지(과제, 예산, 탑-다운 방식으로 떨어지는 키워드...)가 황폐해져서 맨땅을 드러내면 양떼를 몰고 다른 땅을 찾아 떠도는 유목민과 같은 신세가 바로 한국 과학자들의 처지가 아닐까? 유목민이 부러운 것은 무엇이 있을까? 자유? 

식품의약품안전평가원에서 발간한 『건강기능식품 기능성 원료 프로바이오틱 안전성 평가 가이드(민원인 안내서)』(2021년 6월) PDF를 보면 3쪽에 'General Report for Genome Sequence Analysis'가 나온다. 여기에서는 각 유전자의 기능을 COG 체계에 맞추어 집계한 표 사례를 볼 수 있다. 와우, 언제적 COG란 말인가? 아마도 시퀀싱 raw data 생산에서 조립, polishing, genome annotation까지 결과를 만들어 주는 서비스 업체의 보고서를 그냥 갖다 붙인 것은 아닐까하는 생각이 든다.

혹시 COG 할당 소프트웨어(COGcognitor, COGlse, COCmakehash, COGreadblast & COGtriangles)가 좀 더 편리한 것으로 바뀌었는지 궁금하여 웹을 검색해 보니 2021년 Nucleic Acids Research Database issue에 후속 논문이 나온 것을 알게 되었다. 최근 소식을 전해 듣는데 비교적 느린 나로서는 이만하면 정말 빨리 소식을 접한 셈이다. COG 업데이트가 계속 나오는 것을 보니 1956년생인 Eugene V. Koonin이 아직 건재한 모양이다.

COG database update: focus on microbial diversity, model organism, and widespread pathogens. Nucleic Acids Research, Volume 49, Issue D1, 8 January 2021, Pages D274–D281, https://doi.org/10.1093/nar/gkaa1018

이제는 퇴출된 유전자 ID 등 이전 2014년 버전에는 손질할 부분이 매우 많았다. 요즘의 필요성에 맞게 적절히 업데이트가 된 것 같다. 논문의 초록에는 어떠한 사항이 새로워졌는지를 다음과 같이 소개하였다.

  • gi(gene index) 번호를 RefSeq 또는 GenBank.ENA/DDBJ CDS accession number로 바꾸었다.
  • 200개 이상의 새로운 단백질 패밀리를에 관한 COG 주석을 업데이트하였고, PDB 링크가 있는 경우 이를 연결하였다.
  • Pathway로 그룹을 지은 COG 체계를 만들었다.
  • CRISPR-Cas immunity, sporulation(Firmicutes) 및 광합성(남세균)에 관여하는 266개의 새로운 COG를 추가하였다.
  • 이로써 2020년 최신 버전의 COG는 4877개가 되었다.

FTP 사이트 https://ftp.ncbi.nih.gov/pub/COG/COG2020/data/에서 제공하는 새로운 파일이 아직 기존 상태로 머물러 있는 COG software와 호환이 되는지는 테스트를 해 봐야 한다. DB를 구성하는 단백질 세트는 1,785,722개('prot2003-2014.fa')에서 3,213,025개('cog-20.fa')로 약 1.8배 증가하였다.

분명히 몇 년 전에 COG software를 사용하여 COG를 할당하는 방법을 문서로 만들어 둔 것 같은데 기억이 나질 않는다. 내 스크립트 모음 디렉토리를 가서 COG라는 이름으로 검색을 하니  process_COG_query.sh라는 이름의 스크립트가 눈에 뜨였다. 이게 어디서 난 것일까? 번거로운 psiblast 및 COG software 실행 방법을 스크립트 한 방으로 끝낼 수 있게 잘 만들었구만... 누가 만든 거지? 스크립트 이름을 사용하여 구글을 검색해 보았다. 웹 상에 분명히 존재하는 것이었다. 어디 클릭을 해 보자...

NCBI COG software를 이용한 query protein의 COG assignment 방법

뭐야, 이건! 내 위키 사이트 아닌가? 내가 필요에 의해서 스크립트를 만든 다음 이를 사용하는 방법을 웹에 공개한 문서를 만들어 놓고 까맣게 잊고 있었다. 정말로 내 머릿속의 신경 회로 패턴이 많이 낡은 모양이다. 당장 이 스크립트의 맨 위에 'written by Haeyoung Jeong'이라는 코멘트 한 줄을 삽입해 넣었다. 앞으로는 아무리 간단한 스크립트를 만들어도 내 이름을 적어 놓아야 되겠다. 그렇지 않으면 내가 만든건지 다른 곳에서 입수한 것인지 알기가 어려워진다. 하긴 다른 곳에서 입수한 대부분의 스크립트에는 작성자가 이름이나 이메일 주소를 써 놓기도 하니까...

위키 문서에서는 process_COG_query.sh의 앞부분, 즉 query sequence의 ID를 바꾸는 것만 소개가 되어 있다. 현재 내 컴퓨터에 존재하는 스크립트는 psiblast 및 COG software를 실행하는 것까지 포함된 완성 상태이다. 그래 봐야 몇 줄 되지 않지만... 

COG2020 자료를 기존의 COG software로 돌리는 방법을 정리해는 것이 숙제로 남았다. 자칫하면 주말을 앞두고 게을러질 수 있는 뜨거운 여름날의 금요일 오후에 새로운 원석을 발견한 기분이다.

댓글 없음: