2023년 1월 17일 화요일

유전체 데이터의 익명화(anonymization)는 과연 가능한가?

오늘의 주제는 이미 인터넷 상에서 널리 논의되어 왔고 전문적인 자료도 많기 때문에 이렇게 글을 쓴다고 해 봐야 지식의 피라미드 주변에 돌멩이 하나를 쌓는 정도의 행위에 지나지 않는다. 나 자신의 공부를 위해서 단편적인 지식을 찾아 정리한 정도가 되겠다. 보다 영양가 있는 지식을 원한다면 이 분야의 전문가인 카카오헬스케어 연구소장 신수용 박사의 블로그(링크)를 검색하여 찬찬히 읽어보는 것이 바람직하다. 나도 그곳을 틈틈이 들르면서 많은 지식과 영감을 얻고는 한다.

먼저 '익명화(匿名化)'가 무엇을 뜻하는지 알아보자.

익명화에 해당하는 영단어는 보통 anonymization이라고 알려져 있다. 구글을 통해서 이에 대한 뜻을 찾아 보았다. 출처는 생략하였다.

  • the fact or process of removing any information that shows which particular person something, particularly something such as a record on or message from a computer
  • removal of identifying information from (something, such as computer data) so that the original source cannot be known
  • removal of any information that shows which particular person something relates to
  • the irreversible alteration of data so that its human subjects are no longer identifiable

국문 자료를 검색해 보면 '더 이상 개인을 알아볼 수 없게 조치한 정보'라는 정의가 나온다. 위에서 살펴본 영단어 anonymization의 정의와 매우 가깝다. 그런데 놀라운 사실은 가장 기본이 되는 법인 「개인정보 보호법」에서는 익명화 또는 익명정보를 정의하지 않았다는 것이다. '익명' 및 '익명처리'라는 단어가 각 2회씩 등장할 뿐이다. '더 이상 개인을 알아볼 수 없게 조치한 정보'라는 정의는 법률도, 시행령도, 시행규칙도 아닌 「가명정보 처리 가이드라인」에서 내려 주었다.

익명화를 제대로 정의하는 국내법은 내가 알기로는 「생명윤리 및 안전에 관한 법률(생명윤리법)」이 유일하다. 생각하지 못했던 분야의 법률에서 선제적으로 정의를 내리게 된 것 같다. 생명윤리법 제2조(정의) 제19호를 인용해 보자.

“익명화”(匿名化)란 개인식별정보를 영구적으로 삭제하거나, 개인식별정보의 전부 또는 일부를 해당 기관의 고유식별기호로 대체하는 것을 말한다.

여기서 보인 익명화는 「가명정보 처리 가이드라인」의 '가명처리' 정의(개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가정보가 없이는 특정 개인을 알아볼 수 없도록 처리하는 것')에 더 가까워 보인다. '익명'의 문자 그대로의 의미가 '이름을 숨기는 것'이므로, 개인정보의 일부(~식별정보)를 삭제하거나 대체하는 생명윤리법 상에 정의된 익명화를 거친 익명정보는 충분히 '재식별'이 가능할 것이다. 따라서 영단어 anonymization의 일반적인 정의에는 미치지 못한다. 그런데 「보건의료데이터 활용 가이드라인」에서는 익명정보를 다음과 같이 보다 좁게 정의하였다.

익명정보: 시간·비용·기술 등을 합리적으로 고려할 때 어떠한 다른 정보를 사용하여도 더 이상 개인을 알아볼 수 없는 정보('개인정보 상의 개인식별정보를 영구적으로 삭제하거나, 개인식별정보의 전부 또는 일부를 해당 기관의 고유식별기호로 대체하며 만든 정보'에 대하여 기대할 수 있는 속성과는 조금 다르다)

여기서의 익명화는 anonymization의 일반적인 정의에 보다 가깝다. 사생활 및 정보 보호를 위한 기본법은 익명화 또는 익명정보를 아예 정의하지 않았고, 생명윤리법의 정의는 왠지 헐렁하고, 법적 구속력이 없는 가이드라인에서 가장 구체적인 정의를 내리고 있으니 바람직한 상태는 아니다. 식별정보(주민등록번호와 같은)를 삭제하거나 대체하는 정도는 가명화(pseudonymization, replacing all personal identifiers with pseudonyms)라고 한다. 가명정보는 다른 정보를 결합하면 재식별이 가능하다. 어떤 방법을 사용해도 재식별이 불가능하게 만드는 것이 익명화라고 보면 된다.

미국의 HIPAA Privacy Rule이나 유럽연합의 GDPR도 익명화를 특별히 정의하지는 않는다. 다만 비식별화(de-identification)라는 용어로 이를 대신하고 있는 것 같다. 미국의 개정 커먼룰에 의하면 비식별조치를 한 정보 및 인체유래물 관련 연구는 인간대상연구(human subject research)가 아니므로 제공자의 동의나 기관심의위원회(Institutional Review Board, IRB)의 심의가 필요하지 않다. 이건 연구자에게 대단히 중요하다.

이야기가 약간 옆길로 새지만 IRB를 왜 기관생명윤리위원회라고 불러야 하나? 그냥 기관심의위원회가 아닌가?

서론이 길었다. 그러면 유전체 데이터의 진정한 익명화는 가능한가? 오늘의 글은 이에 대한 기술적 방법을 설명하려는 것이 아니다. 무차별적인 익명화는 가능할 것이다. 단지 데이터로서의 가치가 사라질 뿐이다. 데이터로서의 가치를 살리면서 재식별은 불가능하게 만드는 '적당한 익명화'는 가능할까? 난 이것도 어렵다고 본다. 유전체 정보의 익명화 기술과 이를 거친 자료의 재식별화 기술은 마치 군비 경쟁(arms race)와 같아서, 어느 하나가 발전하면 나머지 하나는 당연히 이를 따라잡거나 조금 더 앞서게 될 것이다. 

따라서 데이터 자체의 가치를 훼손하지 않는 수준으로 적절히 익명화를 하고('가명화' 수준에 머무른다 하더라도...), 그 노력이 충분하다면 현행법에서 요구하는 수준을 충족한 것으로 인정해 주는 것이 중요하다. 기술이 중요한 것이 아니라 사회적 합의가 더 중요하다고 본다. 물론 데이터 재식별 금지 합의서라든가 유출을 방지하기 위한 장치를 만들어 놓아야 할 것이다. 

2021년 Nature Communications에 실린 논문 "Computational tools for genomic data de-identification: facilitating data protection law compliance"(링크)에서 공감가는 대목을 구글에서 번역하여 소개해 본다.

이러한 기술이 개인 식별의 모든 잔여 위험을 제거하지 못하는 경우에도 법은 여전히 그러한 데이터를 익명으로 간주할 수 있습니다.

대부분의 관할권에서 익명으로 간주되는 데이터의 임계값은 '제로 위험'이 아닙니다. 잔여 위험은 여전히 익명으로 간주되는 데이터에 남아 있을 수 있으며, 실제로 특정 개인 정보 보호 규제 기관 및 보건 규제 기관은 데이터 세트에서 개인이 재식별되는 수용 가능한 잔여 위험을 5%에서 9% 범위로 제안했습니다. 따라서 위에서 설명한 것과 같은 기술은 여전히 익명 데이터를 생성하는 실행 가능한 방법으로 간주되어야 합니다.

우리는 유전 데이터 비식별화 방법이 익명 데이터를 생성하지 않는 경우에도 이러한 방법이 데이터 보호 규정 준수에 높은 유용성을 유지한다고 주장합니다. EU 데이터 보호법(GDPR)은 데이터를 사용하는 엔터티가 '설계 및 기본적으로 데이터 보호'를 수행하도록 요구합니다. 게놈 데이터의 전산 비식별화는 이 법적 요구 사항을 이행하기 위한 강력한 도구입니다. 또한 이러한 메커니즘을 구현하면 데이터 최소화를 수행하고 상황에 맞는 보안 보호 장치를 구현하는 것과 같은 다른 법적 요구 사항을 충족하는 데 도움이 될 수 있습니다. 마지막으로 게놈 데이터에 대한 전산 비식별화 방법은 데이터 관리에 유용한 도구입니다.

'우리는 이러이러한 방법으로 유전체 데이터를 익명화하였고, 재식별 가능성은 7%이니 안전합니다'라고 말할 수 있을까? 재식별 가능성을 수치화한다는 것은 쉬운 노릇은 아닐 것이다. 특히 오늘날과 같이 한국에 점점 더 많은 외국인이 들어와 생활하고 있는 현실을 비추어 볼 때, 수집된 자료의 민족적 특성까지 고려하게 된다면 재식별 가능성을 계산하기는 더욱 어려울 것이다.

가명정보를 동의 없이 특정 목적(통계작성, 과학적 연구, 공익적 기록보존)에 쓸 수 있게 한다는 것이 개정 개인정보 보호법 제3절 특례조항 신설의 취지이나 「보건의료데이터 활용 가이드라인」에서는 유전체 및 전사체 정보의 안전한 가명처리 방법이 마련되지 않았다는 이유로 철저히 동의 기반으로 쓰라고 하니 아직도 활용의 길은 멀다. 가명처리 방안이 만들어질 것을 기다리지 말고 차라리 동의서를 확실하게 받아서 쓰자는 주장을 하는 사람도 있다. 이것도 나쁘지 않은 방법이다.

이론적으로 데이터의 가치를 훼손하지 않는 유전체 데이터의 익명화 방법은 없다. 쓸모를 유지하는 수준의 적절한 익명화 또는 가명화 방법을 사회적 합의에 의해서 더 늦기 전에 마련해야 하는 것이다. 현재의 정책 수준을 묘사한다면 내성이 없는 완벽한 항생제가 나오기 전까지 항생제 사용을 금지하는 것이나 다를 바 없다. 어차피 그런 날은 영원히 오지 않는다. 항생제를 지금 당장 사용하되 오·남용을 막도록 노력해야 한다.

자료를 찾는 과정에서 2017년 11월 27일에 있었던 '심평원 약학정보원 개인질병정보 판매 행위로 본 현 정부의 보건의료 빅데이터 추진 전략의 문제점' 토론회 관련 기사(메디포뉴스 "보건의료 빅데이터 '재식별' 위험? 케케묵은 논의" 링크)를 보게 되었다. 토론회 자리에서 한양대학교 김재용 교수가 한 말이 가슴에 와 닿아서 이를 인용하는 것으로 오늘 글을 마무리하련다.

오늘 논의에서 비식별화와 재식별화가 강조됐는데, 유럽연합 차원에서 보건의료 빅데이터는 비식별화가 기본적으로 불필요하고 쓸모없다는 것으로 결론이 이미 나 있다. 지금 비식별화 기술 문제로 이 논의를 끌고 가면 안 된다. 비식별화와 식별화는 충분조건이 아니다. 문제 제기한 사람들이 이 문제를 놓침으로서 전산자원·법률 차원 논의의 오류를 범하고 있다. 시민 차원에서도 의도는 좋았으나 전체적 논의 프레임이 빅데이터가 존재 한 하던 시절의 개인정보 논쟁 수준이다. 15년 전 프레임에서 논의가 전개되고 있다.

댓글 없음: