2017년 6월 9일 금요일

CLC Genomics Workbench - Microbial Genomics Module의 유용한 기능(workflow)

MGM이라고도 줄여서 부르는 CLC Genomics Workbench의 microbial genomics module(매뉴얼)은 꽤 가격이 나가는 유료 모듈이다. 평소에 이 모듈이 제공하는 몇가지 툴을 이용하여 분석을 진행해 오다가 오늘부터 본격적으로 workflow를 이용한 분석 작업에 빠져들게 되었다. 연속적으로 수행해야 하는 도구의 입력과 출력을 서로 연결하여 입력물과 출력물을 정의하는 것으로 만들어지는 워크플로우는 잘만 다루면 번거로운 작업을 정말 편하게 할 수 있다. 이미 만들어진 워크플로우를 쓰는 것은 매우 쉬우나, 사용자의 요구에 맞추어 새로 작성려면 익숙해지기까지 약간의 노력을 필요로 한다. 이번의 분석 작업을 계기로 워크플로우의 신규 작성과 수정에 관한 경험을 쌓지 않을까 기대를 하고 있다.

물론 이런 마음가짐을 갖기 직전에는 '왜 이렇게 편한 것을 진작에 익혀서 쓸 생각을 하지 못했을까!'하는 안타까운 마음이 있었다.

100건이 넘는 어떤 감염성 세균 유전체의 MiSeq sequencing data를 가지고서 트리를 그리고 여기에 메타데이터를 입혀서 적당히 장식을 하는 것이 이번 과업의 목표이다. 늘상 하듯이 mapping을 하고 variant를 추출하여 SNP tree를 그려 놓은지는 꽤 시간이 지났다. 메타데이터를 CLC에서 다루는 것이 아직 익숙하지 않아서 이를 가장 나중에 해야 할 일로 미루어 놓은 것이 현명하지 못한 선택이었다. CLC의 기능을 이리저리 살펴보니 메타데이터 테이블을 잘 정의하여 놓은 뒤 분석 작업을 시작하는 것이 훨씬 현명하다는 생각이 들었다.

이러한 분석 기능은 NGS core tools를 제외하면 전부 MGM의 Typing and Epidemiology(beta) 섹션에 포함되어 있다. 구글을 뒤지면서 적당한 튜토리얼이 없는지를 찾아보았다. Typing and epidemiological clustering of common pathogens (beta)이라는 튜토리얼을 찾아서 천천히 읽어보았다. 아니? 필요한 모든 작업 컴포넌트를 한번에 실행할 수 있는 워크플로우가 이미 존재하는 것 아닌가?


Type Among Multiple Species를 쓰면 되는 것이었다. 시퀀싱 샘플이 다양한 종으로 이루어진 것은 아니니 몇 개 종의 representative genome만을 골라서 reference DB를 만들고, 필요한 MLST scheme과 resistance gene을 받아 놓은 다음 튜토리얼에 나온 그대로 설정만 하면 간단하게 모든 작업이 이루어진다. 단, 트리를 그리는 것은 이 결과를 가지고 따로 실행하면 된다. 그리고 설명과는 다르게 Type a Known Species 워크플로우를 실제로 열어보면 de novo assembly - find resistance로 이어지는 가지는 포함되지 않았다. 이는 내가 직접 수정하면 될 것이다. 다음 그림은 Type Among Multiple Species 워크플로우 전체의 다이어그램이다. 상당히 복잡한 모습이 마치 DB schema를 보는 듯하다. 그 존재를 전혀 모르고 있었던 Local Realignment(in NGS core tools)가 두번이나 연속하여 실행된다. InDel & Structural Variant를 먼저 찾은 뒤 이를 참조하여 두번째의 alignment를 하는 것이다. 만약 내가 재래식(?) 작업 방법만 고집했다면 이러한 탁월한 기능이 존재하는지를 아예 모르고 살았을지도 모른다.



30분 정도 작업이 진행된 지금 5개째의 샘플에 대한 분석이 진행되는 중이다. Result metadata table에 결과가 차곡차곡 쌓여 나가는 것이 재미있다. 주말이 지나면 모든 샘플에 대한 결과가 나올 것으로 예상한다. 오염된 샘플에 대한 사전 정보를 이미 갖고 있으므로 실제 워크플로우의 결과를 비교해 보면 흥미로울 것이다.

댓글 없음: