2022년 11월 4일 금요일

mamba가 만능은 아니다 - shovill을 설치하다가 발견한 것

의존성이 까다로운 conda package를 설치할 때 'conda install' 대신에 'mamba install'이 더욱 수월하다는 것을 알고 있었다. 조금 까다로운 미생물 유전체 조립을 위해 Torsten Seemann의 shovill을 mamba로 설치하고 나서 조금 이상한 점을 발견하였다. Shovill을 설치한 것은 skesa assembler를 쓰기 위한 wrapper로 삼기 위함이었다. 

Shovill을 설치한 뒤 명령행에서 skesa를 입력하니 그런 명령어가 없다고 한다. 이상하다? 자동으로 설치가 되어야 하는데... shovill 버전을 확인해 보니 0.9라고 한다. 그런데 릴리즈 이력을 보니 skesa support는 v1.0.0부터 시작되었다는 것 아닌가?

Shovill을 지우고 conda로 다시 설치해 보았다. 버전 >1인 것을 확인하였다.

$ shovill --check
[shovill] Using bwa - /home/hyjeong/miniconda3/bin/bwa | Version: 0.7.17-r1188
[shovill] Using flash - /home/hyjeong/miniconda3/bin/flash | FLASH v1.2.11
[shovill] Using java - /home/hyjeong/miniconda3/bin/java | openjdk version "1.8.0_332"
[shovill] Using lighter - /home/hyjeong/miniconda3/bin/lighter | Lighter v1.1.2
[shovill] Using mash - /home/hyjeong/miniconda3/bin/mash | 2.3
[shovill] Using megahit - /home/hyjeong/miniconda3/bin/megahit | MEGAHIT v1.2.9
[shovill] Using megahit_toolkit - /home/hyjeong/miniconda3/bin/megahit_toolkit | v1.2.9
[shovill] Using pigz - /home/hyjeong/miniconda3/bin/pigz | pigz 2.6
[shovill] Using pilon - /home/hyjeong/miniconda3/bin/pilon | Pilon version 1.24 Thu Jan 28 13:00:45 2021 -0500
[shovill] Using samclip - /home/hyjeong/miniconda3/bin/samclip | samclip 0.4.0
[shovill] Using samtools - /home/hyjeong/miniconda3/bin/samtools | Version: 1.15.1 (using htslib 1.15.1)
[shovill] Using seqtk - /home/hyjeong/miniconda3/bin/seqtk | Version: 1.3-r106
[shovill] Using skesa - /home/hyjeong/miniconda3/bin/skesa | SKESA 2.4.0
[shovill] Using spades.py - /home/hyjeong/miniconda3/bin/spades.py | SPAdes v3.13.0
[shovill] Using trimmomatic - /home/hyjeong/miniconda3/bin/trimmomatic | 0.39
[shovill] Using velvetg - /home/hyjeong/miniconda3/bin/velvetg | Version 1.2.10
[shovill] Using velveth - /home/hyjeong/miniconda3/bin/velveth | Version 1.2.10
$ shovill --version
shovill 1.0.4

Shovill의 최신 버전은 2020년 3월 13일 버전인 1.1.0이다. 너무나 당연한 이야기지만, 설치하기 편리하게 만들어 놓은 패키지는 최신 버전일 수가 없다.

유전체 크기 2.3 M 정도로 추정되는 어떤 세균의 일루미나 유전체 시퀀싱 결과를 처리하고 있는데, 22년의 genome assembly 경험으로도 처음 겪는 난관에 봉착하였다. 16S rRNA 서열이 제대로 튀어나오지 않는다니! Colony에서 PCR로 증폭하여 Sanger sequencing으로 얻는 16S rRNA 서열에 대하여 매핑을 하면 잘 커버가 되는데, de novo assembly로는 이에 대한 contig가 잘 형성되지 않는다. 기껏해야 수백 bp 정도로 조각나 있거나... 정말 불가사의한 일이다. 처음에는 가장 흔한 문제, 즉 오염을 의심했으나 그것도 아닌 것 같다. 

댓글 없음: