2022년 3월 24일 목요일

하나의 자료에 두 개의 accession, 그러한 것은 있을 수가 없다!

3월 22일에 올린 글(링크)에서 하나의 bacterial genome record에 두 개의 accession number가 붙게 된 이야기를 했었다. 동일 자료에 대해서 CP093535CP093294 두 개의 번호가 붙었다. NCBI 검색창에서 두 번호는 똑같은 수준의 취급을 받지는 않는다. 굵게 표시한 앞 번호만 검색 결과를 내보인다. 그러나 웹브라우저의 주소창에 다음과 같이 입력하면 둘 다 같은 곳으로 연결된다. 그러나 후자의 경우 표시되는 주소가 끝부분이 GI로 치환된다.

  • https://www.ncbi.nlm.nih.gov/nuccore/CP093535
  • https://www.ncbi.nlm.nih.gov/nuccore/CP093294 -> 주소창에 적었던 정보가  https://www.ncbi.nlm.nih.gov/nuccore/2209443742로 바뀜

이 숫자를 GI라고 생각하게 된 것은 바로 다음의 검색 결과 때문이었다.

GI 번호로 검색은 되지만 정작 자료를 열어보면 그 안에는 GI 번호가 없다.

GI는 2016년에 공식적으로 퇴출된 것이 아니었나? 제출 자료가 점차 늘어나고 동일 샘플에 대한 유전체 정보 업데이트도 이어지면서 NCBI는 정수로 이루어진 기존의 GI를 accession.version 형식으로 바꾸기로 하였다. 따라서 flat file이나 FASTA format 등 많은 곳에서 더 이상 GI를 보기 어렵게 되었다.

NCBI is phasing out sequence GIs - Here's what you need to know

2022년 3월 18일에 공개된 유전체 정보를 GI 번호로 검색할 수 있다는 것은 이례적인 일이다. 내부적으로만 쓰고 사용자에게 드러나는 영역에서만 가리워진다는 뜻인지?

CP093294는 웹 접속을 통한 검색에서는 약간의 '차별'을 받지만 명령어 환경에서는 어떤지 알아보았다.

$ ncbi-acc-download CP093535 # CP093535.gbk 정상 다운로드
$ ncbi-acc-download CP093294
Failed to download file with id CP093294 from NCBI
NCBI Entrez returned error code 400, are ID(s) CP093294 valid?
$ esearch -db nuccore -query "CP093535 [ACCN]"
<ENTREZ_DIRECT>
  <Db>nuccore</Db>
  <WebEnv>MCID_623bb246862c0533902fd1df</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>1</Count>
  <Step>1</Step>
$ esearch -db nuccore -query "CP093294 [ACCN]"
<ENTREZ_DIRECT>
  <Db>nuccore</Db>
  <WebEnv>MCID_623bb24f56cb4a102f527a0e</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>0</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>
$ esearch -db nuccore -query "2209443742 [GI]"
<ENTREZ_DIRECT>
  <Db>nuccore</Db>
  <WebEnv>MCID_623bb284b5a53d59fc628304</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>1</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>
$ esearch -db nuccore -query "2209443742 [GI]" | efetch -format gb > download.gbk

CP093294를 이용하여 검색을 하면 명령행 환경에서도 결과는 나오지 않는다. 그러나 GI 번호로는 검색이 잘 되고, GenBank flat file도 정상적으로 다운로드된다. 물론 내용물은 원본에 해당하는 CP093535이다. 흥미로운 것은 GI 번호를 이용하여 반환한 결과물 어디를 보아도 GI 번호 자체는 보이지 않는다. 검색어로는 자격이 있는데 실체는 없는, 말하자면 유령인가? 

EDirect utility로 다운로드한 GenBank flat file. Accession 항목에는 여전히 CP093294가 보인다. 이것이 진짜 accession number인가? 결론적으로는 단순한 '별명'으로 보아야 한다.

Riley 박사가 이미 발급받은 accession number를 제한적으로나마 활용할 수 있게 배려해 주었지만, 결국 하나의 genome record가 두 개의 accession number를 갖게 된 것은 전혀 아니었다. 데이터베이스를 다루는 사람의 입장에서는 이는 허용해서는 안 될 일이다. 공식적이고 유일한 accession에 대한 별명이 하나 붙었다는 정도로 이해하면 된다.

GI는 외부 사용자에게 보이지 않을 뿐 없어진 것은 아니었다. 2209443742을 하나씩 증가시키거나 줄이면서 NCBI에서 검색을 해 보면 감이 잡힐 것이다. 

댓글 없음: