2023년 2월 1일 수요일

보건의료 데이터의 비식별화 방법 마련에 애쓰지 말자?

내가 썼던 관련 글(2023년 1월 17일): 유전체 데이터의 익명화(anonymization)는 과연 가능한가?

안전한 유전체 데이터 가명처리 방법이 등장할 때까지 유전체 데이터의 활용을 보류할 수는 없고, 현 수준에서 안전 장치를 마련한 다음 활용을 허용해야 한다는 것이 나의 입장이었다. 여기서 안전 장치라 함은 현란한 IT 기술만을 의미하는 것이 아니다. 정보를 제공받은 자가 이것을 부주의하게 취급하여 유출하거나, 또는 좋지 않은 의도를 가지고 사용하지 않겠다는 확약을 받는 것도 포함하고 있고, 어떻게 보면 이게 더 낫다고 생각하게 되었다.

결과적으로 신수용 소장의 주장과 비슷해졌다. 

"그래서 최근의 내 주장은 차라리 동의를 제대로 받자는 것이다." 출처: 가명화 vs. 동의서: 이젠 동의에 대해서 이야기하자(링크)

그러면 동의서를 제대로 받지 못한 상태에서 생산된 데이터는 어떻게 하나? 글쎄, 경과조치라도 만들지 않고서는 딱히 해결 방안이 떠오르지 않는다.

유전체 데이터에 대해서라면, raw data는 그냥 자유롭게 연구에 쓰도록 하면 되지 않느냐는 의견을 최근에 들은 바 있다. 여기에 연결된 식별정보는 가리고, 다른 자료와의 결합에만 주의한다는 전제 하에서 말이다. 

스탠포드 대학의 Institute for Human-Centered AI(HAI) 웹사이트에서 2021년에 이런 글을 공개하였기에 소개하고자 한다.

De-identifying medical patient data doen't protect out privacy 링크

제아무리 노력해도 비식별 처리는 완벽할 수 없다. 그리고 비식별 처리의 끝판왕, 즉 진정한 익명화 단계에 도달하면 데이터로서의 가치가 사라진다. 프라이버시 보호에 관심이 있다면 불완전한 기술적 버팀목에 기대지 말고, 법적 해결책(legal solution)을 찾아야 한다고 주장하고 있다. Technical solution이 아니라 legal solution이라... 이 글에서는 구체적인 방법을 제시하지는 않았다. 부주의한 취급에 의한 유출이 일어나지 않게 모든 방안을 강구하고, 의도적인 재식별을 하지 않겠다는 합의서(예: data use agreement, DUA)를 체결하는 것으로 충분할까? 사고가 났을 경우 어떤 벌이든 달게 받겠다는 조항을 넣어서?

이 글에서 다음과 같이 비식별화의 문제점을 나열하였다.

  1. 프라이버시 보장을 할 수 없다.
  2. 규제되지 않는 데이터 시장을 허용한다.
  3. Learning healthcare system이 환자에게 도움을 주기 위해 보건의료 데이터를 사용하는 것을 방해한다.

2번은 어려운 고민을 낳는다. 산업 진흥과 규제 중 어느 것에 초점을 맞추어야 하는지? 데이터 3법의 개정(2020년) 취지는 정보 주체의 동의 없이 가명화된 데이터를 활용할 수 있게 물꼬를 트는 것이었다. 여기에 규제를 가하자는 것은 개인정보 자기결정권 보장 및 재식별화를 통한 사생활 침해 또는 차별을 막자는 고결한 정신을 바탕으로 하고 있다고 누구나 믿는다. 그러나 데이터 활용을 통해 얻어지는 이익을 나누자고 한다면 그 누구도 규제를 빨리 걷어내기를 원할 것이다.

참 어려운 일이다.

댓글 없음: