외부의 HTTPS 또는 443번 포트와 직접 접촉해야 하는 커맨드 라인 도구가 회사 전산망에서는 잘 돌지 않는 일을 2년 내리 경험하였었고, 이를 해결하기 위한 여러 방편들을 블로그를 통해 몇 차례 소개한 일이 있다. Conda, pip, docker, R 등 이 현상 때문에 필요한 프로그램을 실행하지 못하여 애를 먹은 순간이 얼마나 많았던가? 웹브라우저만을 쓰는 일반 유저는 회사 전산팀에서 배포한 패키지를 설치하면 되지만 리눅스에서 커맨드 라인으로 일을 하는 사람은 방법이 없다.
오늘은 Entrez Direct를 실무적으로 쓰기 위해서 예전에 만들어 둔 매뉴얼을 보면서 명령어를 조합하여 테스트를 해 보았다. 다음 웹사이트에 아주 풍부한 예제가 있으니 이것도 참조하기에 좋다.
https://ncbi-hackathons.github.io/EDirectCookbook/
그런데 도무지 화면에 결과가 나오지 않는다. 혹시나 싶어서 아마존웹서비스 EC2 인스턴스(우분투 18.04 설치)로 접속해 보았다. ncbi-entrez-direct 패키지를 설치한 다음 명령어를 먹이니 결과가 줄줄 나온다. 아! 역시 소만사의 보안 솔루션이 이번에도 사람을 열 받게 하는구나!
마침 나노포어 시퀀싱 머신(머신이라 부르기에는 손바닥 크기도 되지 않지만)을 구동하기 위하여 보안 정책을 특별히 해제해 놓은 다른 리눅스 컴퓨터가 있어서 거기에서 EDirect를 돌리면 되겠다 생각하고 패키지 설치를 시도하였다. 그런데 설치가 안된다? 이런? 왜 그런가 했더니 ncbi-entrez-direct는 우분투 18.04부터 포함되었고, 나노포어 구동용 서버는 우분투 16.04가 설치된 상태이기 때문이다. 2020년 8월이 지나고 있는 현 시점에서 16.04는 너무 오래 되었다는 생각이 들지만, 하드웨어를 안정적으로 구동하기 위해서는 권장된 조건을 따르지 않을 수가 없다. 숙소에서 쓰는 장남감용 컴퓨터(노트북과 데스크탑)에서는 우분투 스튜디오 18.04와 20.04를 쓰고 있는데 말이다.
OS를 업그레이드하지 않은 상태에서 상위 배포판용 패키지를 설치하여 쓸 수 있을까? 방법을 뒤지면 나오기야 하겠지만 그렇게 바람직하지는 않을 것이다. 아니면 소스를 가져다가 컴파일을 하면 된다.
귀찮으니 그냥 EC2에서 돌려야 되겠다...
오늘 작업의 개요는 NCBI assembly 데이터에서 특정 조건을 만족하는 미생물 유전체의 BioSample accession을 추려 낸 다음, 내가 필요로 하는 분리원 등의 조건을 찾는 것이다. 후속 작업의 목적에 따라서는 'derived from surveillance project'를 걸러서 버릴 것이냐 말 것이냐를 결정하는 것이 대단히 중요한 것 같다.
댓글 없음:
댓글 쓰기