2022년 3월 22일 화요일

[GenBank] 하나의 염기서열 자료에 두 개의 accession number가 붙었다

작물에 풋마름병(bacterial wilt)을 일으키는 식물병원체인 Ralstonia pseudosolanaceraum 균주의 유전체 정보를 등록하다가 경험한 일을 기록하고자 한다.

신젠타 웹사이트 화면 갈무리(링크).

PacBio 시퀀싱 raw data를 Unicycler로 조립하여 얻은 총 4개의 complete sequence를 GenBank에 올려서 accession number까지 받은 상태에서, 같은 자료를 과거에 HGAP으로 조립하고 polishing을 추가로 실시했던 염기서열의 quality가 훨씬 좋은 것을 발견하였다. 더 낫다는 근거는 PGAP으로 주석화한 뒤 pseudogene의 숫자가 압도적으로 적음에 의한다. 

Accession number는 받았으나 아직 공개가 되기 전이니 염기서열을 바꾸어도 되겠느냐고 이메일을 보냈다. 늘 친절하게 답장을 보내주는 Leigh A. Riley 박사는 그래도 괜찮으니 혹시 예전 accession number를 그대로 쓰고 싶으면 알려달라고 하였다. 마침 이미 확보한 accession number를 언급한 논문을 막 투고한 상태라서 그렇게 해 달라고 하였다.

어떤 학술지는 논문에 기재한 accession number가 투고 당시에 접속 가능한 상태가 되도록 요청하는 경우도 있고, 또 어떤 학술지는 이를 사전에 꼭 요청하지는 않는다. NCBI의 정책은 염기서열 등록자가 요청한 공개 개시일(등록일 기준 최대 3년이었던가?)이 되거나 혹은 그 accession number를 언급한 논문이 출판되는 시점 중 빨리 다가오는 날짜에 맞추어서 공개하는 는 것이다.

그런데 여기에서 문제가 발생하였다. 새로 제출한 염기서열에 새로운 번호가 붙어 버렸고, 이미 확보된 번호로 바꾸는 것이 곤란하다는 것이다. 시차를 두고 이메일 교환을 하다 보면 일어날 수 있는 일이다. 그래도 NCBI의 이메일 응대는 정확하고 빠름을 부정할 수 없다.

대신 Riley 박사는 accession 항목에 기존 것을 병기하는 묘안(?)을 제시하였다. 이렇게 하여 하나의 레코드에 두 개의 accession number가 붙는 기이한 상황이 벌어졌다. GenBank와 RefSeq 전부 이렇게 등록되었다.

GenBank CP093535.1

이런 전례가 과거에도 있었는지는 전혀 모르겠다. 뒤쪽에 붙은 accession number인 CP093294는 NCBI 웹사이트 검색창에 아무리 넣어도 결과가 나오지 않는다. 이상하다? 엊그제까지는 검색이 되었었는데 말이다. 대신 웹브라우저 주소창에 'https://www.ncbi.nlm.nih.gov/nuccore/CP093294'를 입력하면 CP093535의 자료가 잘 나타난다. '.1' 버전번호를 넣으면 안 된다. 입력한 주소는 'https://www.ncbi.nlm.nih.gov/nuccore/2209443742'로 바뀌어 나타난다. 

NCBI 측에서도 나름대로 최선을 다 한 것으로 볼 수 있다. 오늘 아침, 학술지 측에서 accession number에 대한 하이퍼링크를 달아서 원고를 다시 제출해 달라는 연락이 왔다. 기와 이렇게 되었으면 URL이나 검색을 통해서 정상적인 결과가 나오는 나중의 accession 번호를 쓰는 것이 낫겠다 싶어서 수정한 원고를 다시 제출하였고, 곧바로 학술지 측에서 OK라는 답장이 왔다. Entrez Direct로 이 레코드에 대한 accession을 요청하면 어떤 답이 나올지 궁금하다.

참으로 기묘한 경험이었다.

댓글 없음: