2024년 4월 24일 수요일

게놈 고물상 영업 시작

K-BDS(Korea BioData Station, 국가 바이오 데이터 스테이션)에 기여하는 것은 양질의 자료를 충분한 관련 정보와 함께 등록하는 일이라고 믿는다. 이러한 믿음을 실행에 옮기기 위하여 얼마 전부터 족히 20년은 묵은 Sanger sequencing chromatogram 묶음을 K-BDS에 등록하기 시작하였다. 이 일을 가칭 '게놈 고물상' 또는 '게놈 박물관'이라 부르기로 했다. K-BDS에 이를 위한 전용 공간을 할당받은 것은 아니다. 사실 이런 고전적인 데이터가 널리 활용되리라고는 크게 기대하지는 않는다. 그러나 NGS가 완전한 대세가 되었고, 시퀀싱이 외부 업체에 의해 진행되는 연구서비스업의 생태계가 정착하면서 유전체 시대를 열게 만든 과거의 주역인 Sanger sequencing raw data file(chromatogram)이 어떻게 생겼고 또 이를 어떻게 다루어야 하는지를 아는 사람이 점점 드물어지는 것을 안타깝게 여기던 터였다. 

GPU, 즉 첨단 반도체 소자를 이용한 인공지능 시대에 무슨 2극 진공관 같은 소리냐고 할지도 모르겠다. 이런 논리라면 박물관은 무슨 소용이 있으랴? 그러나 모든 현재에는 그것을 비롯하게 만든 시작이 있다. 기록을 남기고 기억할 가치가 충분히 있다.

20년 전이면 내가 회사를 떠나 정부출연연구소에 새파란 계약직 선임연구원으로 입소하여 호기심어린 눈망울을 굴리던 시절이다. 1 메가베이스를 finishing 수준의 품질로 해독하려면 족히 1억원이라는 막대한 연구비가 들었던 것으로 기억한다. 시간은 또 얼마나 오래 걸렸던가?

지금까지 서너 개의 BioProject를 등록하고 그에 부속된 데이터 파일을 업로드하였다. ab1/sff 크로마토그램은 물론이요, 이를  phredPhrap 파이프라인으로 처리했던 당시의 작업 디렉토리를 그대로 묶어서 등록하는 중이다. 따라서 당시의 조립 상태를 Consed로 열어 볼 수 있다. 약간 나중에 생산된 자료 중에는 Roche/454 pyrosequencing 장비에서 만들어진 flowgram file(sff)도 있다.

오늘은 Paenibacillus polymyxa의 표준균주인 ATCC 842를 대상으로 실시한 genome snapshot sequencing 데이터 파일을 등록하기 위한 준비작업을 시작하였다. 20년 전에는 세균 하나의 whole-genome sequencing을 하려고 해도 선정 위원회를 열어서 논의를 할 정도로 중대한 일이었다. 게놈 스냅샷은 유전체의 일부만 시험적으로 해독하여 대략적인 맛보기를 하는 수준의 분석을 하는 것이다. 이는 GenBank의 dbGSS라는 섹션에서 다룬다. 요즘은 long read를 이용하여 한꺼번에 수백, 수천의 미생물 유전체를 완성 수준으로 조립해 버리므로, dbGSS에 새로운 데이터가 들어오는 일은 없을 것이다. 그렇다고 하여 GenBank는 이미 등록된 자료를 내다 버리지는 않는다. 이것이 염기서열 저장소의 당연한 역할이고, 미덕이다.

오늘 준비한 데이터는 2천 개 조금 넘는 Sanger chromatogram 원본과 그 처리 과정 및 결과와 관련한 것이다. Basecalling 뒤 벡터와 low-quality 영역을 제거하여 일정 길이 이상이 되는 high-quality read를 선별하여 dbGSS에 accession number DU532978-DU534724로 등록하였고, 결과를 분석하여 2006년에 국내 학술지에 논문으로도 발표하였다. 얼마 되지 않는 수의 read이지만 시험적으로 Phrap assembly를 실시하기도 하였다. K-BDS에 등록할 데이터를 준비함과 동시에 설명문을 작성하느라 예전 논문을 다시 들여다보다가 contig 수를 잘못 적은 것을 발견하였다. 356개인데 365개라고 쓴 것을 18년이 지나서 발견한 부끄러움이란... 그래도 제목이나 초록에 오타가 있는 것보다는 낫지 않은가? KRIBB에서 연구자로서의 본격적인 경력을 시작하는 첫 성과가 되었던 2005년의 논문에는 초록에 오타가 있는 그대로 발간이 되어 그 실수가 부끄럽게도 영원히 박제가 된 상태이다. 나를 포함하여 아는 사람만 알 것이다. 

게놈 고물상 사업이 '수익'을 거두지는 못할 것이다. 하지만 이를 누군가 기억해 주고 또 이따금씩 데이터를 열어서 봐 준다면 난 그것으로 만족한다. 앞으로도 고물상을 채워 나갈 미생물 유전체 데이터가 하드디스크드라이브에 담겨 있으니 이를 곶감 빼먹듯이 하나씩 열어서 K-BDS에 등록할 때마다 남다른 희열을 느낄 것이다. 어쩌면 당시에 손으로 적은 연구노트를 다시 펼쳐 봐야 할지도 모른다.

댓글 없음: