2018년 11월 13일 화요일

Microbial Resource Announcements에 논문 내기

미국 미생물학회(American Society for Microbiolgy, ASM)에서 출간하는 Genome Announcements라는 온라인 저널이 있었다. 원래 미생물학(정확히 말하면 세균학)의 유명한 학술지인 Journal of Bacteriology(JB - 안타깝게도 한국인이 죽자사자 매달리는 impact factor는 현재 그렇게 높지 않다)의 한 섹션으로 존재하다가 별도의 온라인 저널로 분리되어 운영되었고, 올해 여름에 Microbiology Resource Announcements라는 저널로 명칭이 바뀌었다.

유전체 시퀀싱이 아주 드물게 일어나던 시절에는 그 결과를 좋은 저널에 싣는 것이 지금보다는 용이했었다. 중요한 모델 생명체가 바로 연구 대상이 되었으니 사람들의 관심도 많았고, 다른 비교 대상을 찾아내어 일부러 comparative genomic analysis를 하거나 발견 또는 예측된 사실을 실험으로 검증할 필요도 별로 없었다. 지금은 왠만한 생명체는 유전체 해독이 이미 완료된 상태라서 아마도 화성에 가서 새로운 미생물을 찾아내어 시퀀싱하지 않는 이상 수준 높은 학술지에 싣기는 어려울 것이다. 그래도 간혹 미생물을 이용한 연구 결과가  Nature나 Science에 종종 실리는 것을 보면 아직 희망을 접기에는 이른 것 같다.

그러다가 next-generation sequencing이 급격히 발전하여 누구나 유전체 시퀀싱을 할 수 있는 시대가 되면서, 쏟아지는 연구 결과를 발표하는 것이 점점 힘들어졌다. GenBank에 유전체 정보를 올리는 것은 자유지만, 여기에 올리는 정보에는 왜 이러한 생물체를 택하여 연구를 했고 어떤 방법으로 라이브러리를 만들고 시퀀싱을 해서 조립을 했는지 기술하기가 어렵다. BioProject나 BioSample가 이런 정보를 담을 수 있는 공간을 제공하지만 매우 한정적이다.

그래서 공개된 유전체 서열 정보의 인용 가능한 최소한의 학술 정보 역할을 하고자 announcement류의 섹션 혹은 전문 저널이 생겨난 것이다. 여기에 투고를 하면 리뷰를 거치지 않고 편집인이 즉각 출판 여부를 결정하였다. 대신 500단어 이내라는 분량의 제한이 있고 지금도 이는 변함이 없다. 다시 말해서 미생물의 유전체를 시퀀싱하여 적절히 조립하여 GenBank에 올린 뒤 accession number를 받아서 500 단어짜리 announcements를 만들어서 투고하면 JB 논문 한 편을 낸 것과 같은 효과가 있었던 것이다. 이를 이용하여 연구 성과의 평가에 도움을 많이들 받았다. 나 역시 수혜를 입은 사람 중 하나였음을 부인하기는 어렵다. 이것을 이용하여 승진이나 이직에 도움을 받은 사람도 적지 않았을 것이다.

수치화된 연구 성과에 목을 매는 것은 한국이나 중국 마찬가지다. JB 내에서 특정 섹션에 너무 많은 투고와 출판이 이루어지다보니 저널측에서는 이를 별도의 학술지인 Genome Announcements로 분리하게 되었다. 당연히 JB의 일부로서 누리던 SCI 등재, IF 수치 등은 사라지고 말았다. 그래도 나는 여기에 꾸준히 논문을 내고 있다. 유전체 시퀀싱은 이제 누구나 할 수 있는 일이므로 모든 시퀀싱 결과에 값진 학술적 가치를 부여하여 좋은 수준의 peer review journal에 출판될 수는 없는 노릇이다. 정부에서 지원한 연구비, 즉 세금을 이용하여 생성된 연구 결과가 계속 연구자의 컴퓨터 안에서 잠자게 놔 둘 것이 아니라 빨리 공개하여 다른 사람이 이용할 수 있게 만드는 것이 중요하다.

올해 여름부터 Genome Announcements는 Microbiology Resource Announcements로 명칭이 바뀌었다. 이제는 공표하는 연구 내용이 유전체 정보에 국한된 것이 아니라 미생물학과 관련된 모든 자원으로 그 한계가 넓어진 것이다. 하지만 원고 작성 요령은 그다지 변한 것이 없다. 단, review process가 추가되었다는 것이 가장 큰 차이점이다. 그래서 늘 하던 것과 같이 가벼운 마음으로 올해들어서 지금까지 총 네 편을 투고하였는데, 의외로 까다롭게 리뷰를 하는 것이었다. Sequence read의 트리밍 조건은 무엇인지, genome assembly를 하는 데 어떤 파라미터를 설정했는지, %Q30 수치는 어떠했는지 등 Genome Announcements 시절에는 그저 default parameter의 조건으로 했다고만 기술하면 아무런 문제 없이 지나갔던 문구를 하나하나 붙들고 더 상세히 적으라는 것이었다. 심지어 예전에는 요청하지 않던 raw sequencing read의 SRA accession number를 넣으라는 주문도 빠지지 않는다. 오늘 다운로드한 instructions to authors PDF 문서의 8쪽 왼쪽 컬럼을 보면 genome sequence의 availability를 쓰는 예문만 소개하고 있다. 가장 핵심이 되는 유전체 서열 정보의 accession number뿐만 아니라 BioProject/BioSample/SRA 정보를 적당히 섞은 모범적인 예문으로 바꾸는 것이 바람직하다.


Q30이라! raw data 중에서 phred score가 30 이상인 염기의 총 수 혹은 비율을 의미한다. 그런데 이걸 굳이 논문에 넣어야 하나? 지금까지 그렇게 많은 유전체 시퀀싱 관련 논문을 쓰면서도 이 결과를 요구하는 저널은 없었다. fastaQC의 html report나 CLC Genomics Workbench의 NGS Core Tools -> Create Sequencing QC Report에도 이런 정보는 주지 않는다. 혹시나 싶어서 fastQC가 zip 파일로 묶어서 제공하는 결과 파일 중 하나(fastqc_data.txt)를 열어보니 '>>Per sequence quality scores' 섹션에 Q 값에 대한 염기의 총 카운트가 나온다. Q30부터 시작하여 합산을 한 뒤 전체 염기로 나누어야 %Q30 수치를 계산할 수 있다. 보통 성가신 일이 아니다. 다행히도 시퀀싱 업체에서 제공한 QC 리포트를 들추어서 원하는 수치를 찾아내기는 했지만. 요구하는 것을 다 모아서 원고를 수정하니 500 단어 제한을 훌쩍 넘어간다.

리뷰어가 요청하는 상세 정보가 논문의 성격과 분량 측면에서 타당한지 편집국에서 판단하여 어느 정도의 기준선을 제안하면 좋을 터인데 아직은 그 수준이 아닌 것 같다. 어찌되었든 앞으로는 더 나아질 것이라 생각한다. 마침 내가 낸 논문이 오늘자 저널 웹사이트의 Latest Articles 바로 위에 나와서 기념삼아 스크린샷을 찍었다.




댓글 없음: