2021년 8월 5일 목요일

NCBI의 assembly 정보 파일로 접근하는 URL이 살짝 바뀐 듯하다

예전에는 다음 URL을 통해서 RefSeq에 등록된 유전체 정보의 요약본 파일(assembly_summary.txt)을 다운로드했었다.

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/assembly_summary_refseq.txt

이 파일은 리눅스 명령행에서 curl이나 wget을 통해서 여전히 잘 다운로드할 수 있다. 그런데 이 주소를 웹브라우저에 넣으니 파일이 열리거나 다운로드로 이어지지 않는다. 웹 브라우저를 통한 FTP 접근을 막은 것일까? NCBI의 Genome Download (FTP) FAQ로 접속하여 16번째 항목인 'How can I download RefSeq data for all complete bacterial genomes'를 확인해 보았다. assembly_summary.txt 파일의 접근 경로는 ftp://가 아니라 https://로 시작한다.

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/assembly_summary.txt

물론 이 텍스트 파일의 20번째 컬럼인 ftp_path의 값은 당연히 ftp://로 시작한다. 그러면 이번에는 NCBI 웹사이트에서 특정 미생물 균주의 assembly를 다운로드하기 위해 클릭하여 접속하는 URL은 무엇으로 시작하는가? 아래 그림에서 빨간색으로 표시된 곳을 클릭하면 여전히 웹 브라우저에서 파일 목록을 볼 수 있다.


이때 주소창에 나타나는 URL이 당연히 ftp://로 시작할 것으로 생각했었는데 오늘 확인해 본 결과 https://였다. 음? 원래 이랬었던가? 아니면 최근에 바뀐 것인가? 보안이나 네트워크 대역폭 등 여러 사항을 감안하여 주소 체계를 바꾸는 것으로 이해할 수 있다. 

공공 데이터를 ftp가 아니라 https를 통해서 전송한다면 암호화-복호화 등의 인증 작업을 거쳐야 하므로 시간이 더 걸릴 것이다. ftp://로 시작하는 주소를 누군가 해킹하여 악성 코드를 심은 엉뚱한 파일을 다운로드하게 만들 수도 있지 않을까? 충분히 가능한 이야기라고 생각한다. 내가 접속한 ftp 서버가 악의적으로 만들어진 가짜일 수도 있다! 인간 유전체 GRCh38이라고 되어 있는 ftp 주소를 클릭하였더니 악성 코드가 담긴 엉뚱한 파일이 내 컴퓨터로 다운로드될 수도 있는 것이다. 'ncbi'라 생각하고 클릭을 했더니 'nc6i'였고, 'kobic'이라 생각했더니 'ko6ic'으로 연결되는 일도 있을 수 있다.

무엇을 상상하든 그 이상의 일이 벌어지는 세상이니... 조심하자.

댓글 없음: