2021년 7월 27일 화요일

NCBI의 datasets 명령어 알아보기

평소에 NCBI에서 미생물 유전체 자료를 밥먹듯이 다운로드하는 나로서는 웹 브라우저뿐만 아니라 명령행 환경에서도 쓸 수 있는 EDirectncbi-genome-download와 같은 유틸리티가 얼마나 고마운지 모른다. Bactopia에서는 주로 ENA를 대상으로 하여 SRA 데이터를 간편하게 다운로드할 수 있는 기능을 제공한다. 물론 SRA Toolkit있지만 BioProject accession에 연결된 raw sequencing read를 다운로드하기에는 'bactopia search'를 활용하는 것이 훨씬 편리하다.

어떤 미생물 종의 유전체 해독 현황을 알아보기 위해 오늘 NCBI 웹사이트에 접속하여 검색을 해 보았다. 그랬더니 흔히 보던 검색결과 옆에 이런 안내문이 눈에 뜨인다. 오늘 처음 발견한 것은 아니다. Quickstart: command-line tools를 클릭해 보았다.

간단한 설명을 보자. datasets은 NCBI에서 대량의 생물학적 서열 데이터를 다운로드하는 명령어이고, dataformatJSON(JavaScript Object Notation) Lines 포맷의 메타데이터를 TSV나 엑셀 등 다른 형태로 전환하는 명령어이다. 이상의 두 가지 command line tool은 리눅스나 macOS 및 64비트 윈도우즈용 프로그램을 전부 제공한다.

Quickstart guides에서는 주로 인간 유전체에 대한 활용 사례를 간략하게 설명하였다. 신종코로나바이러스 유전체 서열을 다운로드하는 방법에 대한 설명도 있다. 조금만 연구해 보면 번거롭게 assembly summary 파일을 파싱하거나 다소 난해한 EDirect 명령어 조합을 만들 필요가 없을 것 같다. 

NCBI 웹사이트에서 검색을 실시한 뒤 적당한 필터로 거른 결과물을 다운로드하는 것이 불가능한 것은 아니다. 나도 최근에 신종코로나바이러스의 유전체 수십만 건을 웹사이트에서 받아 보았기 때문이다. 그러나 안내문에 의하면 1000건 이상의 유전체 혹은 15GB를 초과하는 genome data package를 다운로드하려면 datasets 명령어를 쓰라고 한다.

과학기술정보통신부의 주도로 바이오연구데이터를 등록하기 위한 시스템을 만들고자 여러 사람이 애를 쓰고 있는 것으로 알고 있다. 단지 과제 평가를 위해서 데이터 등록 자체에만 치중해서는 의미가 없다. 등록된 데이터 자체에 대한 검색이 우선 가능해야 한다. 누가 무슨 과제를 통해서 생성한 연구 성과인지를 검색하는 것은 데이터 자체가 아니라 메타데이터에 대한 검색에 해당한다. 그 다음으로는 데이터를 쉽게 가져다가 활용할 수 있어야 한다. 그러려면 오늘 소개한 것에 해당하는 유틸리티도 개발·보급되어야 한다. 이것이 결코 쉬운 일이 아님은 너무나 명백하다.

댓글 없음: