INSDC(International Nucleotide Sequence Database Collaboration)란 전 세계 생명과학 연구자들이 생산한 DNA·RNA 염기서열 데이터를 수집·보존·공유하기 위해 운영되는 국제 협력체이다. 미국 NCBI의 GenBank, 유럽의 European Nucleotide Archive(ENA), 일본의 DNA Data Bank of Japan(DDBJ)이 공동으로 참여하며, 어느 한 곳에 등록된 데이터는 세 기관에 자동으로 공유된다.
1980년대부터 이어져 온 이 협력체는 생명과학 분야의 대표적인 오픈사이언스 성공 사례로 평가받으며, 오늘날 유전체 연구와 바이오인공지능(AI)의 발전을 가능하게 한 핵심 공공 인프라 가운데 하나이다. 연구자들은 누구나 무료로 데이터를 등록하고 활용할 수 있으며, 이를 통해 연구의 재현성과 데이터 재사용성을 높이고 전 세계적인 지식 공유를 촉진하고 있다.
우리나라의 KOBIC(Korea Bioinformation Center, 국가생명연구자원정보센터)은 일종의 옵저버 자격으로 INSDC 연례 회의에 4년 연속 참석하고 있다. 이렇게 된 데에는 KOBIC과 오랜 협력관계에 있었던 DDBJ의 도움이 매우 컸다. 원래 이 회의는 미국-유럽-일본 순으로 매년 돌아가면서 개최된다. 작년 영국에 이어서 올해는 원래 일본이 개최할 순서였지만, DDBJ가 한 해를 미루어서 내년에 40주년 기념 행사와 더불어 개최하기를 희망함에 따라 올해는 2년 만에 다시 미국에서 열렸다.
![]() |
| 행사가 열리는 Bethesda North Marriot Hotel & Conference Center. |
한국(KOBIC)에서는 나를 포함하여 총 세 명이 참석하였다. 나는 이 미팅에는 처음 참석한다. DDBJ쪽 주요 인사들(Masanori Arita, Yasukazu Nakamura, Yuichi Kodama, 그리고 한국인인 이경범 박사님, 링크)는 국내외를 오가며 여러 차례 만나서 이미 친숙한 모습이다.
2024년, INSDC는 회원 기관을 확장하겠다는 의지를 공식적으로 표명하였다(링크). 여기에는 한국의 KOBIC, 중국, 인도(IBDC) 등이 높은 관심을 보이고 있다. 중국에는 꽤 많은 생명과학 데이터센터가 있는데, 오늘의 발표에서는 CNSDC가 단일 창구 역할을 하는 것으로 결정했음을 밝혔다.
![]() |
| NCBI의 Acting Director인 Kim Pruitt가 인삿말을 하고 있다. 2년 전 워싱턴 D.C.에서 열렸던 AI-바이오과학 협력회의에서 그녀의 발표를 들은 일이 있다(관련 글). RefSeq를 만든 장본인이라고 생각하면 된다. |
Prospective member는 기술적 역량에 더하여 다음의 사항도 충족해야 한다. 이는 매우 중요한 기준이므로 잘 명심해 두어야 한다.
- 장기적 운영 지속성
- 데이터 공개 정책
- 국제 협력 의지(outreach)
- 안정적인 재원
- 데이터 교환 능력
3개 회원 기관 및 3개 prospective member의 발표를 들은 뒤에는 실무진 소그룹에서 논의한 의제를 놓고 활발한 토론이 이어졌다. 생물학적 데이터 센터의 모임이므로 당연히 인공지능에 대한 이야기가 첫날부터 쏟아져 나와야 할 것 같은데 전혀 그렇지 않았다. 물리적 실체가 없이 컴퓨터로 만든 서열의 취급 문제가 거론되기는 했으나, 점차 제출량이 증가하고 있는 MAG(metagenome-assembled genome) 관련 사항과 TPA(third-party annotation)에 대해서 장시간 토론이 이어졌다. 예를 들어 MAG 데이터는 ENA의 경우 한 species에 대해 대표적인 것 하나만 등록하는 것이 원칙이지만, NCBI는 그렇지 않다. 사실 prokaryote의 종 내 다양성은 상상을 초월하는 것이라서, 대표성은 strain 수준으로 더욱 레벨을 좁혀야 한다는 말이 나올 수 있다. 또한 shotgun metagenome 데이터는 제출된 MAG에 의존할 수도 있으나 raw data를 직접 다운로드하여 각자의 파이프라인으로 조립해서 활용하려는 연구자가 꽤 많다.
![]() |
| EC(Executive Committe)의 2026년도 최우선순위 업무. |
AI 학습을 위해 메타데이터의 필수 항목을 늘리고 더욱 점검을 강화해야 한다, 등록된 데이터의 활용 방안을 강구해야 한다, 이용자를 위해 클라우드 기반 컴퓨팅 자원을 제공해야 한다... 우리나라 환경이라면 요즘 단골로 나오는 이러한 주제는 내가 알아듣기로 거의 나오지 않았다. 물론 내일 있을 2일차 오전 발표에서 DDBJ는 GLM-based annotation system에 대하여 발표를 할 예정이라고 하였다.
나로서는 정말 신선한 경험이었다. 모든 연구자가 AI를 향해서 '받들어 총' 자세를 취하고, AI 학습을 용이하게 만들어 줄 '데이터셋'을 얼마나 확보하고 있느냐고 질문을 받는 묘한 분위기에만 절어 있다가 '디톡스'를 하고 온 느낌이었다. 물론 오늘 1일차 공식 일정을 마치고 저녁을 먹는 자리에서는 AI 기술에 대한 피로감을 다들 토로하였지만... 아니, 우리나라는 정말 누구에게나 기본이 될 만한 레퍼런스 데이터를 만들어서 과학계에 기여한 적이 있었나.
제39회 INSDC 연례회의 첫날 자리에서 내가 느낀 것은 신기술을 얼마나 빨리 수용하고 있는지를 자랑하는 분위기가 아니었다. 오히려 모든 연구자에게 공평하게 제공될 생물학 서열 데이터를 얼마나 정확하고 안정적으로 보존하고 서비스할 것인지에 대해 진지하게 고민하는 모습이었다. 유행은 바뀌어도 공공 데이터 인프라의 가치는 쉽게 변하지 않는다는 사실을 다시 생각하게 되었다.
INSDC 회원은 데이터 표준안을 수립하는 권위가 있지만(오해하지 말기를. 제출자를 불편하게 만드는 필수 항목이 잔뜩 들어 있는 표준안이 아니라, 'minimum standard' 방식으로 접근한다), 동시에 전 세계 연구자들이 의존하는 데이터를 장기간 안정적으로 보존하고 서비스해야 하는 의무도 따른다.
따라서 '국내 연구데이터나 잘 모아서 국내 활용이나 잘 되게 하면 되지, 무엇하러 외국 데이터를 미러링하는가?'라는 단순한 논리를 따라서는 안 된다. 이번 회의에 참석하면서 INSDC 회원 자격이 단순한 명예나 지위가 아니라는 사실을 새삼 느꼈다. prospective member에게 강조되는 기준 가운데 하나가 바로 outreach이다. 이는 단순한 홍보 활동이 아니라 국경을 넘어 연구자와 기관을 연결하고, 글로벌 지식 생태계에 기여하려는 의지를 뜻한다. 우리나라도 언젠가는 데이터를 소비하는 나라를 넘어 공공 데이터 인프라를 제공하고 유지하는 나라로 한 걸음 더 나아갈 수 있기를 기대한다.











