2025년 2월 25일 화요일

GTDB-Tk의 reference database를 release 220으로 업데이트한 뒤 발생하는 'Reference genome missing from FastANI database' 에러 해결하기

GTDB-Tk의 배포용 최신판에는 r202_v2 레퍼런스 데이터베이스가 포함되어 있다(혹은 '있었다?'). 최소한 내가 지난 1월에 Bioconda를 이용하여 이를 설치할 때에는 그러하였다. 최근에 공개된 미생물 표준균주의 유전체는 여기에 반영이 되어 있지 않을 것 같아서 레퍼런스 DB를 최신 버전인 r220으로 업데이트한 뒤 재분석을 실행하니 다음과 같은 에러가 발생하였다.

[2025-02-25 08:40:48] ERROR: Reference genome missing from FastANI database: /data/gtdb/release220/fastani/database/GCF/004/000/985/GCF_004000985.1_genomic.fna.gz

데이터베이스가 설치된 곳(/data/gtdb/release220/)을 확인해 보니 fastani라는 디렉토리 자체가 없다. 패키지에 포함된 download-db.sh 스트립트를 이용하여 무려 두 차례나 재설치 후 분석을 시도했으나 마찬가지였다. 데이터를 받는데 하루 종일 걸렸는데 이게 무슨 일이람... GTDB 데이터베이스 최신판의 풀 패키지는 여기에 있다(r220의 파일 크기는 101.04 GB). 만약 파일이 전송되다가 불완전한 상태로 끊겼다면 다운로드 후 설치 및 환경 설정까지 담당하는는 download-db.sh 스크립트가 정상 종료될리가 없다.

r202_v2의 설치 경로 아래에는 분명히 62 GB나 되는 fastani라는 디렉토리가 있었다. r220은 도대체 뭐가 다른가... 다시 한 번 살펴보니 디렉토리 구조가 조금 다르다. r220에는 r202_v2에는 없었던 skani라는 디렉토리가 있었다. 그 아래에 다시 database가 있고, 하위 구조를 보아하니 이 상태 그대로 fastani 하위에 심볼릭 링크를 만들면 될 것 같았다. 

이와 같이 나름대로 조치를 취한 뒤 다시 GTDB-Tk 분석을 실시하였다. 잘 돌아간다! 최종 결과 파일인 gtdbtk.bac120.summary.tsv가 무사히 생성되었다.

레퍼런스 데이터베이스의 구조가 바뀌었으면 제대로 알려 주었어야 하는 것 아닌가! 현재 설치용 배포판으로 제공하는 GTDB-Tk v2.1.1에서는 skani를 사용하기 전에 개발된 것으로 추측된다. 최신 버전은 v2.4.0인데 비교적 최근에 설치를 한 나는 왜 v2.1.1이란 말인가. 조만간 GTDB-Tk도 v2.4.0으로 업데이트를 해야 되겠다.

GitHub에 가 보니 FastANI가 skani로 대체되었다는 공지가 있었다. 개발자는 자기 할 일을 다 하고 있었는데 나만 몰랐다.

✨ New Features

GTDB-Tk v2.4.0+ includes the following new features:

  • FastANI has been replaced by skani as the primary tool for computing Average Nucleotide Identity (ANI).Users may notice slight variations in the results compared to those obtained using FastANI.

skani는 도대체 무엇인가? FastANI의 뒤를 이을 고속 분석법인가? 그렇다! 대량의 metagenome-assembled genome(MAG)을 상호 비교할 일이 많아지면서 기존의 FastANI도 느리다도 느껴지는 시대가 되었다. 특히 ANI 계산은 contamination과 incompleteness에 대하여 취약하다. skani는 단편 상태의 불완전한 MAG를 비교함에 있어서 FastANI보다 20배 이상 빠르며, 더욱 정확하다고 한다.

조금만 손 놓고 있으면 이렇게 최신 동향을 놓치게 된다. Announcements를 제대로 챙겨 보았다면 내가 설치한 GTDB-Tk 자체의 버전(2.1.0, 2022년 5월 11일)이 너무 옛날 것이라는 것을 알게 될 것이다. 늘 깨어 있으라! 현잰ㄴ 2024년 4월 24일에 배포된 2.4.0이 통용되고 있다.


2025년 2월 27일 업데이트

나의 두 눈으로 똑똑히 보고 말았다.... GTDB-Tk 공식 문서의 Bioconda를 통한 설치 관련 항목(링크)에 어떤 내용이 있었는지를...





댓글 없음: