2017년 10월 24일 화요일

[PacBio sequencing] HGAP version 확인하기

HGAP(hierarchical genome-assembly process, Nature Methods 2013년도 논문)은 PacBio data를 nonhybrid 방식, 즉 일루미나와 같은 short read의 도움 없이 스스로 교정을 하여 유전체를 조립하는 프로그램의 이름이다. SMRT Analysis(링크)는 PacBio에서 배포하는 소프트웨어 묶음으로서 SMRT Portal(브라우저 기반의 애플리케이션), SMRT Analysis API, SMRT View 등을 포함한다. 물론 가장 중요한 요소는 SMRT portal일 것이다.

SMRT portal에서 하는 일은 다음과 같다.

  • Align reads to a reference and call variants
  • Assemble reads into a de novo genome(HGAP이 여기에 포함된다)
  • Analyze RNA-sequencing data
  • Perform DNA-methylation analysis
나는 총 5대의 리눅스 서버에 SMRT analysis를 각자 설치해 놓았다. 주로 분석하는 대상이 미생물이라서 데이터의 용량이 그다지 크지 않고(한번에 1~3개 정도의 SMRT cell에서 유래한 데이터를 조립), 또 매일같이 분석을 하는 것이 아니라서 클러스터 환경에서 돌아가도록 설치하지는 않았다. 부끄러운 이야기지만 클러스터(Oracle Grid Engine)를 다루는 것에도 별로 익숙하지도 못하다. 실제로 경험을 해보니 성능이 제각각인 노드 몇 개를 묶은 상태에서는 가장 느린 노드에서 작업이 끝나질 않아서 원하는 실행 속도 단축이 이루어지지 않았다. 아마도 이러한 상황에 맞게 클러스터를 커스터마이징할 수도 있겠지만 거기까지는 하고 싶지 않다.

현재 설치된 SMRT analysis는 2.3.0이다(설치 매뉴얼). 아래 그림은 Dell PowerEdge R910 서버에 깔린 모습이다. Xeon E7540x4(총 24 core), 메모리 256 GB의 아주 소박한(지금 기준으로는) 서버이다. 그래도 올해에 DAS(PowerVault MD1200)을 달아서 만성적인 저장소 부족 문제는 해결하였다. 아무 탈없이 3년만 더 돌아가길 바라는 심정으로...


de novo assembly를 할 때에는 RS_HGAP_Assembly.2(optimized for quality)와 RS_HGAP_Assembly.3(optimized for speed) 중 적당한 것을 골라서 사용한다. 그런데 어느날 갑자기 '이게 HGAP 버전으로는 몇이지?'하는 의구심이 들었다. SMRT analysis 버전을 따라가는 거였던가? 아니면 RS_HGAP... 프로토콜 맨 뒤의 번호가 버전 번호였던가? 모든 궁금증은 HGAP in SMRT Analysis라는 웹문서를 보면서 해소되었다. 즉, SMRT Analysis 2.3에는 HGAP.2와 HGAP.3가 같이 들어있는 것이다. 예전에 읽었던 문서였는데 이를 까맣게 잊고 있었다.
  • RS_HGAP_Assembly.2 = HGAP.2
  • RS_HGAP_Assembly.3 = HGAP.3 (SMRT Analysis 2.2에서 처음 등장)
  • HGAP.1: deprecated in SMRT Analysis 2.2

올해에는 Oxford Nanopore Sequencing을 좀 더 경험했어야 하는데 그렇지 못한 상태로 벌써 10월이 끝나가고 있다!

댓글 없음: