2024년 7월 12일 금요일

오픈 사이언스 시대의 연구데이터 공개 정책

서울 출장에서 돌아와서 치과까지 들렀다 집에 오니 너무나 피곤하여 잠시 퍼져 있다가 노트북 컴퓨터의 덮개를 열었다. 어제(7월 11일) KISTI, 즉 한국과학기술정보연구원에서 열렸던 <2024 연구데이터 관리 및 활용 세미나>의 생생한 기억이 사라지기 전에 참석 후기를 쓰기 위함이었다.

세미나가 열렸던 키움관 1층 컨퍼런스룸의 반대편에는 KISTI Studio가 자리잡고 있었다.

'오픈 사이언스란 과학 연구의 결과물과 데이터, 방법론 등을 누구나 접근하고 활용할 수 있도록 공개하는 것을 의미한다'고 ChatGPT는 말하였다. 주요 원칙 중 1순위는 오픈 액세스, 즉 학술 논문(연구 결과물)을 누구나 무료로 읽고 다운로드하게 만드는 것이고, 두 번째는 오픈 데이터, 즉 연구데이터를 공개하여 다른 연구자들이 이를 재사용하고 검증할 수 있게 하는 것이다.

오픈 데이터 정책은 가뜩이나 업무에 시달리는 연구자에게 부담을 하나 더 지우는 것은 맞다. 데이터를 정제하여 친절한 설명을 단 뒤에 정해진 리포지토리에 올리는 일은 논문이나 보고서를 쓰는 일 못지않게 수고스럽기 때문이다. 그나마 생명공학 분야에서는 서열 데이터 등을 전문 리포지토리에 올려서 공개를 해 놓아야만 학술지에서 논문을 받아 주는 전통이 잘 수립되어 있어서 이에 따르는 연구자의 저항감은 비교적 적은 편이다. 특히 국내에서는 국가 바이오 데이터 스테이션(K-BDS)이 그러한 데이터 리포지토리 역할을 수행하고 있으며, 등록 실적을 높이기 위해 많은 노력을 기울이고 있다.

과학자가 얻는 기본적인 보상은 어떤 연구 결과를 누구보다도 먼저 발표하여 인정을 받는 것이다. 이를 위해서는 연구 결과(또는 데이터)의 개방이 근본 전제 조건이 되어야 한다. 그렇다면 데이터를 공유하는 과학자들은 학술적 크레딧을 얻고 있는가? 연구 데이터를 공유하게 만드는 정책은 연구 성과에 어떤 영향을 미치는가? 연구 데이터의 독점적 사용은 과학의 발전을 저해하는가? 이번 KISTI 세미나의 오전 세션에서 발표를 했던 성균관대학교 권석범 교수(논문 목록)는 이러한 질문에 대한 답을 얻고자 하였다. 

발표 중인 권석범 교수. 죄송하게도 앞자리에 앉은 다른 발표자의 뒷모습이 찍혔다. 왼쪽부터 KAIST 이경찬 책임('IR 및 IDR 통합을 통한 연구데이터 서비스 방안 모색'), STEPI 신은정 박사('국내외 연구데이터 정책 동향과 과제').

연구 방법론은 생명과학자인 내가 이해하기는 힘들었으나 결론은 이러했다. 

  • 데이터 공유 과학자의 연구 성과는 더 많이 인용되지만 시간이 흐를수록 인용회수는 더 적어진다. 이는 더 진보된 연구 결과가 등장하기 때문인 것으로 보인다.
  • 연구데이터를 공유(강제?)하는 정책은 연구 성과를 저하시키는 것 같지는 않다. 데이터를 인용하는 과학자가 데이터를 공개하는 과학자를 직접적인 경쟁 상대로 삼는 것은 좋은 전략이 아니기 때문이다. 이는 좋은 전략이 아니다. 이를 활용하여 다른 연구 질문을 해결하는 것(diversion)이 더 나은 선택이다.
  • 독점적 연구 데이터 활용은 나쁜 것만은 아니다. 다른 차원의 오픈 사이언스를 촉발할 수 있다. 

권 교수의 결론은 '데이터 공개는 무조건 좋다'는 우리의 막연한 기대를 그대로 반영하지는 않았다는 점에서 매우 흥미로웠다. 데이터를 모두에게 공개하면 분명 이를 이용하여 이득만 취하는 무임승차자가 생길 수 있다. 데이터가 필요한 사람에게 독점적으로 제공하고 대가를 받는 direct exchange가 더 이득이라고 생각한다면 막을 길은 없다. 따라서 연구 데이터의 공유 활성화를 이루려면 분명히 정책적 지원이 필요하다. 연구 데이터의 공개가 어떠한 성과물을 창출하는지 분석할 수 있는 체계 또한 필요하다. 

권 교수의 발표에서 다룬 본인의 연구 논문은 다음과 같다.

  • Incentive or disincentive for research data disclosure? A large-scale empirical analysis and implications for open science policy. International Journal of Information Management (2010)
  • Competition or diversion? Effect of public sharing of data on research productivity of data provider. (under review)
  • Dual role of data in corporate research on machine learning and artificial intelligence. (under review)

지난해 과기정통부에서 <국가연구데이터 관리 및 활용 촉진에 관한 법률 제정안>을 입법예고하였으나 21대 국회와 함께 종료되었고, 22대 국회에서는 두 건의 법률안이 의원입법으로 다시 올라온 상태이다(복기왕의원 등 23인, 박충권의원 등 11인). 지금까지 쏟아져 나온 온갖 진흥법의 구조와 많이 닮은 것은 전자이고, 다른 법에서 보호하고 있는 정보를 포함하는 국가연구데이터에 대한 공개 제한 규정을 담은 것은 후자이다. 바이오헬스 데이터와 같이 생명윤리법 또는 개인정보 보호법의 적용 대상이 되는 데이터를 위한 배려(?)로 보인다.

연구데이터와 관련한 법률이 생긴다고 모든 것이 명확해지는 것은 절대 아니다. 이미 공공데이터법(2013)과 산업 디지털 전환법(2022)이 있어서 공공데이터 및 연구데이터와도 영역 다툼을 벌여야 하기 때문이다. 예를 들어 공공데이터란 공공기관이 직무상 혹은 목적성을 가지고 생성·취득·관리하는 전자(기록)자료인데, 출연연이 생성한 연구 데이터 역시 이 범주에 당연히 들어가지 않겠는가.

일단 이러한 법률이 제정되면 몇 년 단위의 기본계획 수립(너무나 많이 보아 온 방식), 데이터 플랫폼 구축 및 운영 등 고정적으로 예산을 받을 수 있는 구조가 만들어지니 한편에서는 이를 분명히 환영할 것이다. 국내외 연구데이터 정책과 법제도 - 동향과 과제에 대해서는 STEPI의 신은정 박사가 발표하였고, 이는 연구보고서인 <연구데이터 활성화를 위한 정책방향 및 법제와 전략 연구>(김권일 외 2023.9.)로 발표된 바 있음을 밝혔다. 

이외에도 KISTI가 구축한 국가연구데이터플랫폼 DataON과 표준형 기관 연구데이터 리포지토리인 NaRDA(National Research Data Archive), 그리고 데이터 리포지토리의 인증 체계 중 하나인 CoreTrustSeal에 대한 소개도 있었다. 모든 발표를 듣느라 거의 하루를 꼬박 투자했지만 전혀 시간이 아깝지 않았다.

연구데이터 공개가 진정으로 가치를 발휘하려면 연구자의 선의에 기대하는 것만으로는 충분하지 않다. 정책이 그 빈 팀을 잘 메워 주어야 하고, 실제로 어떻게 활용되고 있는지 면밀하게 추적해서 이를 평가해야 한다. 한국사회과학자료원(KOSSDA)의 데이터 인용 캠페인인 'Cite the data'가 떠오른다.

KOSSDA 웹사이트의 팝업 창에서 '질적연구'라는 용어를 접했다. 부끄럽지만 질적연구라는 용어는 2년 전 국무조정실 규제혁신추진단에 파견을 나와서 다른 전문위원에게 처음 들었다. '당신들과 같은 논리실증주의자들은~'을 부르짖던 이 모 박사님이 생각이 난다.

KOSSDA 웹사이트의 팝업 창. 이것이 요즘 사회과학의 연구 방법론이로구나...


댓글 없음: