[일러두기] 이 글은 2025년 8월 24일 디지털타임스에 실린 저의 기고문 「'바이오 데이터, 韓이 국제규범 만들어야」의 원본입니다.
생명·의료 연구 분야에서는 아주 아름다운 전통이 있습니다. 논문에 실은 데이터를 공개된 저장소('repository'라 합니다)에 등록하여 누구나 쉽게 검증하고 자유롭게 활용할 수 있게 하는 것입니다. 많은 학술지에서는 아예 논문 투고 시점에 데이터를 공인된 저장소에 먼저 등록한 뒤 접근번호('accession number')를 발급받아 원고에 명시하도록 요구합니다. 공개된 과학연구 데이터는 논문에서 주장하는 결론을 뒷받침하는 중요한 근거이자 2차적 활용을 통해 지속적으로 가치를 드러내게 됩니다. 이는 단순한 배려나 관행이 아니라 신뢰, 협력, 재현성을 통해 ‘좋은 과학’을 실천하는 숭고한 길이기도 합니다.
최근 단백질 구조 예측의 혁신을 불러온 알파폴드(AlphaFold)는 방대한 공개 연구데이터 없이는 탄생할 수 없었습니다. 수십 년 동안 전 세계 연구자들이 Protein Data Bank(PDB) 등에 등록한 수백만 개의 단백질 구조와 서열 데이터 및 문헌 정보가 AI 학습의 토대가 되었음은 잘 알려져 있습니다.
글로벌 데이터 저장소로 인정을 받는 것은 쉬운 일이 아닙니다. 연구 커뮤니티을 통해 그 필요성에 대한 공감대가 형성되고, 오랜 논의와 협의를 거쳐 등록 데이터에 대한 사실상의 표준('de facto standard')을 만들며, 이를 기술적으로 뒷받침할 수 있는 운영 주체가 결정됩니다. 대표적인 것이 바로 40년 가까운 역사를 지닌 국제염기서열데이터베이스협력체(International Nucleotide Sequence Database Collaboration, INSDC)입니다. 이는 미국 국립보건원 국립의학도서관의 NCBI, 유럽분자생물학연구소의 EBI, 그리고 일본 국립유전학연구소 산하의 DDBJ로 구성된 연합체입니다. 정부나 국제기구가 나서서 시험을 치르듯 INSDC의 회원 자격을 부여하는 것은 아니지만, 세 기관 모두 정부 기관이거나 정부가 주도하는 공공 기관이라는 점은 우연이 아닐 것입니다. 그만큼 생명·의료 분야의 연구 데이터 공유가 공익 목적에 부합하고, 이를 지원하는 인프라인 데이터 리포지토리는 오랜 기간에 걸쳐 안정적으로 운영되어야 함을 전제로 하기 때문입니다.
INSDC의 어느 한 곳에 데이터를 제출하든지 등록 후 하루가 지나면 전부 동기화가 이루어져서 나머지 두 곳의 데이터베이스에서도 같은 접근 번호를 이용하여 동일한 데이터를 다운로드할 수 있습니다. NGS가 보편화되면서 전 세계적으로 생산되는 생물학적 서열 데이터가 기하급수적으로 증가하고 있음에도 불구하고 동기화가 가능한 것은 IT 기술의 발전뿐만 아니라 데이터의 표준화가 잘 이루어졌기 때문입니다.
데이터의 특성에 따라 메타데이터만 동기화하고 실데이터는 분산된 개별 리포지토리에 보관하는 형태도 존재합니다. 예를 들어 단백체 데이터의 공유와 재사용을 위한 연합체인 ProteomeXchange에서는 동일한 접근번호를 이용하여 모든 회원 웹사이트에서 검색이 가능하지만, 실제 데이터는 사용자가 제출한 곳에서만 접근 가능합니다. 데이터가 매우 크거나 표준화 수준이 낮고, 동일한 실데이터가 여러 방식으로 재해석될 수 있는 여지가 있는 경우라면 이러한 방식이 적합할 수 있습니다. 염기서열 데이터는 레퍼런스의 성격이 강하고 표준화된 주석화 방식 및 동기화 전통이 오랫동안 이어져 왔기에 현재의 모습으로 성숙하게 되었습니다.
KOBIC의 국가바이오데이터스테이션(K-BDS)은 국내 바이오 분야의 연구개발사업에서 도출된 연구 데이터를 통합관리하기 위하여 2022년 말부터 본격적으로 운영되었습니다. 정부로부터 연구비를 지원받은 국내 연구자들은 관련 법령에 따라 생명연구자원 연구성과물(‘데이터’)을 K-BDS에 등록해야 합니다. 그러나 학술지에서 공인하는 저장소는 아니었으므로 논문을 내기 위해서는 이를 INSDC에 다시 등록해야 하는 번거로움이 있었습니다. 점점 많은 학술지가 K-BDS를 데이터 저장소로 인정하고는 있지만, 아직 INSDC와 같은 정도로 인정을 받는 수준은 아니었습니다.
그러던 중 KOBIC과 오래 교류를 해 왔던 일본 DDBJ에 의해 우리의 존재가 INSDC측에 알려지게 되었고, 연합체의 멤버십 확장 정책화에 따라서 2024년과 2025년 2년 연속으로 연례 회의의 초청을 받아서 신규 회원으로서 가입 가능성을 논의하게 되었습니다. 이는 데이터 폭증, 지역 데이터 주권 요구, 그리고 기술·표준의 성숙이 맞물려서 INSDC를 개방형 네트워크로 전환하려는 정책 변화의 일환입니다.
현재는 NGS 원데이터를 K-BDS에 등록하면 DDBJ를 거쳐서 INSDC로 전송되는 데이터 브로커링(data brokering)이 원활히 이루어지고 있어서 최소한 NGS 데이터의 경우 논문 투고를 위해 INSDC에 별도로 등록할 필요가 없습니다. 우리의 기술적 준비 상황이 INSDC의 요구 수준을 충족하여 그 일원으로 인정이 된다면, 우리 데이터가 K-BDS에 등록된 그대로 전 세계로 퍼져 나가게 될 것입니다.
우리가 INSDC의 일원이 된다는 것은 어떤 의미가 있을까요? 앞서 설명드렸듯이 과제 평가를 위한 연구성과물 등록과 학술지에 논문을 내기 위한 국외 리포지토리 등록을 한 번으로 해결할 수 있는 매우 현실적인 편익을 제공합니다. 그러나 이 편익을 더욱 뛰어넘는 의미가 있습니다. 선진국이 이미 만들어 놓은 생명·의료 분야의 정보 인프라를 이용만 해 오던 수동적 위치에서, 세계 10위권의 글로벌 중추국 위상에 어울리는 역할을 바이오 정보 분야에서 수행할 수 있음을 입증받게 되는 것입니다. 예를 들어 메타데이터 표준 강화나 민감 데이터 보호 정책, DSI 이익 공유와 같은 정책 결정에 참여함으로써 국내 법·윤리와 국제 규범 간의 조율권을 확보할 수 있으며, K-BDS를 통한 국외 연구자의 데이터 등록도 늘어날 것으로 기대됩니다. 즉 단순한 데이터의 제공국에서 국제 생명정보 거버넌스의 일원이 되는 것입니다.
‘데이터 공유지’를 조성하기 위한 기술을 이용하여 만든 별도의 파생 데이터베이스 및 서비스에 INSDC의 숨은 매력이 있는지도 모릅니다. 각 멤버들은 공유되지 않는 영역에서는 독자적인 기술력을 자랑합니다. KOBIC은 K-BDS가 본격 출범하기 이전부터 클라우드 기반의 생명정보 분석 워크플로우 설계 및 활용 시스템을 서비스해 왔으며, INSDC에서는 직접 다루지 않는 단백체·대사체·이미지·화합물 데이터를 수집함으로써 멀티모달 AI 시대를 위한 대비를 착실히 해 왔습니다.
INSDC는 오픈 사이언스를 위한 실천 모델이자 매우 구체적인 성공 사례입니다. 그러나 회원이 되었다고 하여 수집한 모든 데이터를 국경 바깥으로 내보냄을 의미하지 않습니다. 개인의 유전체 데이터는 재식별 가능성이 있으며, 다른 데이터와 결합할 경우 그 가능성은 더욱 커집니다. 또한 많은 국가에서 유전체 정보는 개인정보의 한 종류로 간주되어 제공자의 명시적 동의 없이는 국외 리포지토리에 저장할 수 없습니다. 따라서 이러한 데이터는 제한된 접근을 표방하는 별도의 리포지토리에 안전하게 저장되며, INSDC의 자동 동기화 대상도 아닙니다.
데이터 주권은 국내에서 생성된 데이터를 국경 안에 가두고 국내 연구자와 산업계에서만 쓸 수 있게 만드는 소극적인 의미로만 해석해서는 곤란합니다. 국제 무대에 동참하면서 기술 동향을 정확히 파악하고 정책 마련 과정에 적극적으로 참여해 나갈 수 있을 때, 비로소 소버린 AI로 나아가는 지름길로 접어들 수 있다고 생각합니다.
INSDC 가입은 단순히 데이터가 국경을 넘어 흐르도록 하는 기술적 절차가 아니라, 한국이 세계 생명정보 질서의 한 축을 담당하겠다는 선언입니다. KOBIC은 준비되어 있고, 국제사회는 새로운 파트너를 받아들일 준비가 되어 있습니다. 그러나 그 기회는 오래 열려있지 않으며, 우리가 이를 노리는 다른 국가도 존재할 것입니다. 데이터 주권을 지키면서도 세계 표준을 주도하는 나라, 국내 연구자를 돕고 해외 연구를 끌어들이는 허브 국가, 그리고 멀티모달 AI 시대의 기반을 다지는 전진기지—이 모든 길이 INSDC에서 시작됩니다. 지금이 그 문을 열고 나아갈 시간입니다.
댓글 없음:
댓글 쓰기