2017년 1월 18일 수요일

Bacterial RNA-seq data analysis

Tophat-cufflinks, TMM, DESeq, EdgeR... 이런 것들을 공부하면서 RNA-seq data analysis를 열심히 익히던 시절이 있었다. 그것이 벌써 3-4년 전의 일이다. 이를 꾸준히 진행하여 논문까지 완성했더라면 완전한 나의 실력으로 자리잡았을 것이지만, 연구과제 수준에서 끝난 뒤 더 이상 진행이 되지 않다 보니 결국은 본업인 genome sequencing 쪽으로 다시 돌아오고 말았다. 당시 익혔던 기법들은 노트 속에 남은채 조금씩 기억에서 잊혀져갔다. 미생물 유전체 해독을 위한 최선의 플랫폼이 되어버린 PacBio 자료를 매만지느라 나의 이러한 편식은 나아질 기미를 보이지 않았다.

그러다 우연한 기회에 광합성 세균의 RNA-seq data를 분석할 일이 생겼다. 좀 편하게 해보려고 과거의 기억을 더듬어서 CLC Genomics Workbench의 RNA-seq Analysis 기능을 쓰려고 하였더니... 새로 등장한 metadata file 조작 단계에서 막히고 말았다. 남겨진 교육 자료를 아무리 보아도 잘 이해가 가질 않아서 결국 인실리코젠의 도움을 받기로 하였다.

Tophat-cufflinks-cuffdiff로 이어지는 tuxedo suite는 진핵 생명체를 대상으로 novel transcript 혹은 novel splicing site를 찾는 것이 중요한 목적 중의 하나이다. 반면에 coding density가 매우 높고 gene overlap이 빈번히 일어나는 원핵 생물에서는 이러한 방법의 적용이 항상 바람직하지는 않다고 한다. 비록 그 수가 많지는 않으나 이러한 점을 감안하여 만들어진 원핵 생물 전용 RNA-seq analysis software가 몇가지 존재한다(Rockhopper, EDGE-pro, SPARTA 등). 그런데 3년 정도 이 분야의 공부를 등한시하는 바람에 최신 경향을 잘 파악하지 못하고 있다. 나같은 게으른 사람은 이런 논문을 하나 찾아서 읽으면 큰 도움이 된다.

A survey of best practices for RNA-seq data analysis. Genome biology 2016 17:13

공부에는 끝이 없구나!

댓글 없음: