NCBI에 유전체 서열 올리다가 고생한 경험담

매번 미생물 monoisolate의 유전체 정보만 등록을 하다가 이번에는 동일 환경에서 분리된 두 종류의 미생물을 multiisolate로 등록하게 되었다. 이는 BioProject 등록 단계에서 multiisolate임을 지정하는 것으로 시작된다. 등록할 미생물 두 종은 어떤 곤충의 애벌레 장에서 분리한 것으로, PacBio RS II로 유전체 해독을 완성하였다. 미생물 한 종의 유전체는 완성된 염색체, 나머지 하나는 완성된 염색체와 플라스미드로 구성된 것이다.

등록 웹사이트에서 genome sequence를 올리면 파일 업로드가 끝난 후 자동으로 서열 ID를 보여주면서 어느 것이 염색체고 어느것이 플라스미드인지를 기입하라는 폼이 나온다. 그런데 이번에는 그런 것이 없이 그냥 지나가는가 싶더니 곧바로 에러 메시지가 뜨는 것이었다.

Error: ********.fna: File didn't pass validation for option 1 (non-wgs genomes)
Level    Message
ERROR    Location of sequence ''>chromosome\n'' is not defined
FATAL    Chromosome sequence was not found

Error: ********.fna: File didn't pass validation for option 1 (non-wgs genomes)
Level    Message
ERROR    Location of sequence ''>chromosome\n'' is not defined
ERROR    Location of sequence ''>plasmid\n'' is not defined
FATAL    Chromosome sequence was not found

이건 처음 보는 오류였다. 도무지 이해가 가지 않아서 genomes @ ncbi로 문의 이메일을 보냈다. 언제나 친절하게 문제를 해결해 주는 Leigh A. Riley 박사로부터 답장이 왔다.

웹사이트를 아무리 둘러봐도 IMPORTANT: Additional... 에 해당하는 링크는 보이지 않았다. 그러나 두번째 단락의 설명대로 업로드할 염기서열 FASTA file에 해당되는 정보를 넣으면 될 것 같았다. 예전에 tbl2asn으로 sequin(asn.1) 파일을 만들 때 많이 하던 일이다. 그래서 이 지시에 따라서 필요한 정보를 서열 description 라인에 삽입하여 수정한 파일을 다시 업로드하였다.

염색체는 이제 제대로 처리가 되기 시작하였다. 그런데 plasmid는 여전히 오류를 토해낸다.

ERROR: valid [SEQ_DESCR.BioSourceInconsistency] Plasmid location set but plasmid name missing. Add a plasmid source modifier with the plasmid name. Use unnamed if the name is not known. DESCRIPTOR: BioSrc: ******** BIOSEQ: gnl|NCBIFILE|SUB********/unnamed: raw, dna len= 70706

https://www.ncbi.nlm.nih.gov/sites/genbank/genome_validation 웹사이트를 참조해 보라고 나왔지만 여기에는 SEQ_DESCR.BioSourceInconsistency라는 메시지에 해당하는 설명이 없다. 나는 Leigh가 시키는대로 [plasmid=name]을 추가한 죄밖에 없는데? 물론 name은 적절한 플라스미드 이름으로 바꾸었었다. >name으로 해 보아도 에러가 발생하고, [plasmid=unnamed]로 해도 에러가 멈추질 않는다. Plasmid 서열의 description line을 계속 이리저리 바꾸어 가면서 여덟번 정도를 제출해 보았지만 계속 에러 메시지가 나왔다.

으으윽... 도대체 어디가 잘못된 것일까. 도저히 모르겠다고 다시 이메일을 보내 놓은 다음 Prokaryotic and Eukaryotic Genomes Submission Guide 페이지를 샅샅이 뒤지기 시작하였다. non-WGS, 즉 완성 수준의 유전체 서열을 batch submission할 때 plasmid 이름을 지정하는 것과 관련된 다른 지시사항이 있는지를 알아보기 위해서였다.

아하! 이 웹사이트 안에 Leigh가 알려준 IMPORTANT: Additional requirements for batch submission이라는 섹션이 있었다. 이걸 클릭하여 펼치니 비로소 플라스미드 또는 세포내 소기관의 유전체 서열에 대한 설명이 나타났다.

Leigh의 실수는 1) IMPORTANT... 정보가 있는 페이지의 주소를 알려주지 않은 것 2) [plasmid-name=pBR322]라고 써야 정확한 것을 [plasmid=name]으로 잘못 알려준 것이었다. 이를 설명에 맞게 고친 뒤 다시 업로드를 하였다. 비로소 문제없이 잘 프로세싱이 된다.

단일 유전체를 올릴 때에는 각 서열이 염색체 또는 플라스미드 중 어느것에 해당하는지 웹사이트 안의 양식에 직접 기입하게 하면서 왜 batch submission에서는 업로드하는 FASTA file의 서열 description 라인에 쓰게 하는 것일까? 아마도 샘플이 많을 경우를 대비한 배려가 아닌가 싶다.

이것 말고도 RNA-seq raw data와 관련한 BioProject 및 SRA 등록과 관련한 오류를 고쳐 나가는 중이다. GEO에는 고전적인 microarray data를 올려본 경험밖에 없어서 제출을 위한 processed file(read count data, raw 및 normalized)을 준비하기 전에 내 나름대로 genome sequencing을 위한 것과는 별도의 BioProject를 등록하고 SRA에 raw sequencing read 파일을 먼저 올려 두었었다. 그런데 정작 SRA에 processed file을 올렸더니 GEO와 연관된 raw data file은 GEO team에서 등록을 해 준다는 것이었다. 그리고 내가 이와 관련하여 등록한 BioProject 역시 잘못되었다고 알려주었다. 이것은 어떤 남세균의 두 가지 morphotype에서 각기 확보한 RNA-seq data를 등록하기 위함이었는데, GEO에서는 이를 두 개의 BioSample로 구분하라는 것이었다.

밥 먹듯이 하는 서열 데이터 등록이지만 이렇게 매번 새로울 수가 없다. 등록을 위한 웹사이트는 매번 조금씩 진화한다. 그것도 조금씩 나은 방향으로 말이다. 이메일로 질문을 하면 거의 항상 하루 안에 답장이 온다. 그리고 담당자 역시 변동 없이 일정하다. 우리나라처럼 3년 주기로 부서를 바꾸거나, 승진을 하여 더 이상 실무를 맡지 않거나, 혹은 이직을 하는 일이 그렇게 많지 않은 것 같다. 이러니 안심을 하고 편안하게 등록을 하는 것 아니겠는가? 데이터 등록자의 열린 마음(정보를 공유하고자 하는), 그리고 서비스 제공자의 신뢰성이 한데 어우러져서 공공 유전체 DB가 점점 성장한다. 수치로 나타나는 실적·성과와는 큰 관계가 없지만 분명한 것은 데이터 규모는 꾸준히 성장하고 있으며 그 유용성에 대해서도 말할 나위가 없다.

늘 이런 고민을 하고는 한다. 우리나라 연구자가 우리나라 연구비(곧 우리나라 국민의 지갑에서 세금으로 지원된 것이다)로 생성한 유전체 관련 정보를 꼭 우리나라 웹사이트에 등록을 하는 것이 옳은가? 그리고 이것이 얼마나 활용되고 있는지를 수치화한 성과로 보고하는 일이 그렇게 중요할까? 나는 그래야 한다고 주장해야 하는 조직에 근무하고는 있지만 이에 대해서는 늘 회의스러울 때가 많다.

정해영의 블로그 - JEONG Haeyoung's blog

2017년 12월 8일 금요일

NCBI에 유전체 서열 올리다가 고생한 경험담

댓글 없음:

즐겨 찾는 곳

프로필