2016년 4월 6일 수요일

Kraken + Krona

존스 홉킨스 대학에서 개발한 Kraken은 NGS로 만들어진 short DNA sequence에 분류학적 표지를 달아주는 도구이다. 보통 서열 정렬(sequence alignment)은 시간이 많이 걸리는 과정으로 알려져 있지만, kraken은 k-mer 정렬과 신규한 분류 알고리즘을 사용하여 실행 시간을 대폭 줄였다.

Kraken에서는 DB를 사용자가 만들 수도 있고, 미리 만들어진 소규모 DB인 MiniKraken DB를 사용할 수도 있다. MiniKraken(4GB)은 RefSeq에 수록된 세균, 고세균 및 바이러스의 complete genome sequence를 기반으로 한 것이다. 최신 업데이트는 2014년 12월 8일이라서 업데이트가 되었으면 한다.

FASTQ file을 kraken 및 kraken-translate로 처리하면 다음과 같은 파일이 생긴다.

HWI-ST1208:245:D1HH3ACXX:1:2308:17477:189823_2:N:0:GTGGCC root;cellular organisms;Bacteria;Firmicutes;Clostridia;Clostridiales;Clostridiaceae;Clostridium;Clostridium kluyveri;Clostridium kluyveri NBRC 12016
HWI-ST1208:245:D1HH3ACXX:1:2206:18877:41229_1:N:0:GTGGCC root;cellular organisms;Bacteria;Firmicutes;Clostridia;Clostridiales;Clostridiaceae;Clostridium;Clostridium kluyveri;Clostridium kluyveri NBRC 12016
...
Kraken 결과물을 시각화하는 데에는 Krona hierarchical data browser가 제격이다. 처음에는 kraken-traslate의 결과물을 krona에 투입해야 하는 것으로 생각했는데 도움말을 찾아보니 그게 아니라 kraken의 최초 결과물에서 2, 3번째 컬럼만 추출한 뒤 KronaTools의 스크립트인 ImportTaxonomy.pl에 제공하여 동적 웹 문서 파일을 얻으면 되는 것이었다. 오늘 처음으로 얻은 Krona의 화면이다.


학회 발표자료를 준비하면서 몇 가지의 플롯을 그리기 위해 gnuplot을 사용하였다. 공식 홈페이지 및 다른 웹사이트의 예제를 참조하여 히스토그램을 그리는데 에러가 발생한다. 문법이 틀렸다는 다소 이해할 수 없는 메시지였다. 검색을 거듭한 결과 내 컴퓨터에 깔린 gnuplot의 버전이 너무 오래된 것이 문제였다. RPM 패키지를 지우고 버전 5.0.3의 tarball을 받아다가 새로 깔았다. 원하는 그림이 얻어짐은 물론 출력물도 이전 버전보다 훨씬 보기에 좋다. 심각한 그림을 그리려면 당연히 R을 사용함이 옳을 것이나, gnuplot은 매우 직관적이라서 사용하기가 좋다.

SGA preqcMetAMOS의 실행 문제도 해결해야 되는데...

댓글 없음: