2019년 7월 5일 금요일

PhyloSift 마커 데이터베이스 다운로드 에러가 발생하는 이유

업무용 서버의 CentOS를 6.x에서 7.6.1810으로 업그레이드 한 뒤 처음으로 PhyloSift를 실행하게 되었다. 예전의 프로그램 디렉토리를 그대로 유지하고는 있지만 새롭게 설치하는 것이 낫겠다 싶어서 GitHub의 것을 git clone 명령으로 가져왔다. 나중에 README 파일에서 확이한 것이지만 이것은 PhyloSift를 설치하는 가장 어려운 방법이었다. 테스트 실행을 하려미 Perl 모듈이 없다고 나온다. cpanm으로 하나를 설치하면 다른 것이 없다고 하고, 그것을 설치하면 또 다른 것이 없다고 나오고...

GitHub의 PhyloShift 페이지를 보면 마지막 업데이트는 5년 전이었다. 혹시 더 나은 프로그램이 그 이후에 나온 것이 있지 않을까? NCBI에서 PhyloSift를 인용하는 새로운 프로그램 논문이 없는지 검색을 해 보았으나 별달리 눈에 뜨이는 것은 없었다. 아주 철저하게 찾아보지는 않았다.

이러다간 끝이 없겠다 싶어서 예전에 설치하여 둔 디렉토리에 있는 것을 쓰기로 했다. 이것은 필요한 모듈이 이미 묶여서 배포한 파일을 가져다가 푼 것이니까. 그런데 유전체 서열 파일 하나를 가져다가 테스트를 하는데 마커 서열 데이터베이스를 다룬로드하는 과정에서 그런 주소가 없다는 메시지가 나왔다. '왜 마커 서열 DB를 또 다운로드하려는 것이지? 예전에 실행을 했었는데...' 정리를 해 보자. 마커 서열 DB가 어디에 설치되어 있는가? ~/share/phylosift이다. CentOS를 업그레이드하면서 하드디스크의 파티션 작업을 했었고, 그 과정에서 홈 디렉토리는 싹 정리가 되었다. 이전 홈 디렉토리의 백업본을 가져다가 복구를 하였다.

마커 DB 파일은 README 파일에 따르면 다음의 위치에 있다고는 하나 이제는 유효하지 않다. 그래서 다운로드가 되지 않았던 모양이다.


$marker_base_url = "http://edhar.genomecenter.ucdavis.edu/~koadman/phylosift_markers";
$ncbi_url = "http://edhar.genomecenter.ucdavis.edu/~koadman/ncbi.tgz";

GitHub 페이지가 최신 정보를 담고 있으리라고 생각한 것이 착각이었다. 최신 정보는 'PhyloSift | mining the global metagenome' 이라는 워드프레스 기반의 웹사이트에 있다. 여기에는 마커 DB 다운로드 위치가 바뀌었다는 2018년 1월의 글이 가장 위에 올라와 있다. 기억을 더듬어 보니 이 공지를 최소한 열 번도 넘게 보았었다. 그러나 http://edhar...로 시작하는 위치에서 자동으로 다운로드한 이후 다시 DB를 설치할 일이 없었으니 신경을 쓸 일이 없었던 것이 너무나 당연하다.

Markers Database download change

PhyloSift 마커와 프로그램 패키지 등은 FigShare에 있다는 것이다. 그리고 이 사이트의 것은 코드를 고치기 전까지는 자동 다운로드가 되지 않는다고 밝혀 놓았다.

모든 phylum을 아우르는 미생물 유전체의 global phylogenetic analysis를 그리고 싶다면 아직까지는 PhyloSift를 능가하는 도구는 없는 것 같다.

댓글 없음: