2022년 8월 25일 목요일

개인정보의 정의가 마음에 들지 않는다

국내법인 개인정보 보호법에서 정의한 '개인정보'는 개인과 관련한 정보인가, 혹은 개인을 식별할 수 있는 정보인가? 후자, 즉 개인식별정보에 가깝다는 것이 중론이다. 개인정보 보호법 제2조1항("개인정보"란 살아 있는 개인에 관한 정보로서 다음 각 목의 어느 하나에 해당하는 정보를 말한다)에 딸린 문구(목)를 살펴보자. 

  • 가. 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보
  • 나. 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보. 이 경우 쉽게 결합할 수 있는지 여부는 다른 정보의 입수 가능성 등 개인을 알아보는 데 소요되는 시간, 비용, 기술 등을 합리적으로 고려하여야 한다.
  • 다. 가목 또는 나목을 제1호의2에 따라 가명처리함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용·결합 없이는 특정 개인을 알아볼 수 없는 정보(이하 "가명정보"라 한다)

나는 여기에서 가목의 설명이 매우 마음에 들지 않는다. 예를 들어 어떤 폭력행위의 정의를 다음과 같이 내린다고 가정해 보자.

작대기, 몽둥이 등을 통하여 사람을 때리는 행위

전혀 어색함이 없다. 그러면 이것을 다음과 같이 비틀어 보자.

작대기, 몽둥이 등을 통하여 사람을 때리는 도구

좀 이상하지 않은가? 같은 구조를 이용하여 '필기도구'를 다음과 같이 정의한다고 생각해 보자. 역시 어색하다.

연필, 펜 등을 통하여 글씨를 쓰는 도구

다시 한 번 개인정보의 정의 가목을 살펴보자.

성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보

굵게 표시한 낱말은 서로 잘 어울리지 않는다. "성명, 주민등록번호 및 영상 등과 같이 이를 통하여 개인을 알아볼 수 있는 정보"라고 하는 것이 어법상 맞다. 그러나 이렇게 하면 법 조문을 만든 원래의 뜻이 훼손될지도 모르는 일이다. '~통하여'를 그대로 두려면, 맨 끝에서는 동작이나 상태를 뜻하는 말로 끝나는 것이 옳다. 그러나 이는 '정보'를 설명하는 말로는 적당하지 않다. 

개인정보의 정의가 지나치게 모호하다는 것은 여러 사람이 지적하는 바다. 특별히 나는 제2조1항 가목이 비문(非文: 비문법적인 문장)이라고 주장하고 싶다.

학술적 목적이든 산업적 목적이든 개인정보를 활용하려면 정보주체를 보호하기 위하여 비식별화 조치를 취하는 것이 중요하다(뒤에서 설명). 그런데 비식별화가 완벽하면 정보로서 쓸모가 없어진다. 출처는 정확히 알기 어렵지만 이런 글이 있다. 눈을 가리면 공정해질 것이라고 믿는가? 글쎄다... 객관적으로 공정해지는 것이 아니라 이런 조치를 취하면 공정해 질 것이라고 믿는 것이 중요한 현실이다.

De-indentification leads to information loss which may limit the usefulness of the resulting health information.

비식별, 재식별, 익명화 등의 용어가 명확히 정의되지 않았다는 것도 개인정보 보호법이 갖는 큰 문제이다. 최근 카카오헬스케어로 자리를 옮긴 신수용 교수의 글(블로그)을 조금만 찾아 읽어 보면 이것과 관련한 제반 문제를 줄줄이 파악할 수 있다. 좀 시간이 지났지만 2018년에 BioINpro에 발표한 보건의료 데이터 비식별화: 문제점과 대안부터 읽어 보는 것도 좋다. 이 글이 나온 것은 데이터3법이 정식으로 시행(2020년 8월) 전이므로, 개인정보 보호법 내에서는 가명처리에 관한 정의가 포함되기 전이었을 것으로 여겨진다. 현행 개인정보 보호법 제2조1의2에서는 다음과 같은 문장이 있다. 단. 비식별화라는 용어는 나오지 않는다.

"가명처리"란 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보의 사용·결합 없이는 특정 개인을 알아볼 수 없도록 처리하는 것을 말한다.

비식별화(de-identification)는 식별 가능한 정보를 제거한다는 일반적인 용어이다. 비식별화는 암호화와 다르다. 암호화는 데이터가 사고로 유출되었을 때 이를 보호하기 위한 방법이고, 비식별화는 데이터를 공개해서 활용할 때 해당 정보에 포함된 데이터가 식별되지 않게 만드는 방법이다(신수용, 정보과학회지 2017년 2월호 '개인정보보호를 위한 헬스케어 데이터 익명화" 중에서). 비식별화의 구체적인 방법에는 pseudonymization(가명화: 복원 가능)과 anonymization(익명화: 복원 불가)이 있는데, 국문으로는 종종 비식별화와 익명화를 혼용하는 경향이 있다. 정확히 따진다면 (익명화)  (비식별화)이다. 생명과학자의 행동 반경을 가장 크게 좌우하는 생명윤리법에는 '가명처리'에 대한 내용은 없고, 제2조19항에 익명화에 대한 정의만 나온다.

“익명화”(匿名化)란 개인식별정보를 영구적으로 삭제하거나, 개인식별정보의 전부 또는 일부를 해당 기관의 고유식별기호로 대체하는 것을 말한다.

개인정보보호위원회의 「가명정보 처리 가이드라인」(2020.9.) <참고 1>에는 개인정보의 가명·익명 처리 기술 종류를 나열하였으니 학문적으로 관심이 있다면 어떤 방법이 있는지 훑어볼 일이다. 「보건의료 데이터 활용 가이드라인」(2021.1., 일부 개정안에 대한 의견 조회가 끝났음 - 링크)에서는 가명처리의 개념을 비로소 실어 놓았고, <붙임 1>에서는 개인정보 보호법 개정에 따른 다음과 같은 생명윤리법 유권해석을 내어 놓았다.

개정 개인정보 보호법의 '가명처리'는 생명윤리법의 '익명화'에 포함되는 것으로 해석함.

아하... 그렇게 하면 무슨 소용이 있는가. 유전체 정보는 본인 동의 및 극히 적은 예외 사항을 제외하면 가명처리를 하지 못하게 유보하였단 말이다. 데이터3법의 개정 취지가 생명윤리법이라는 벽을 뚫지 못하고, 더 나아가서는 의료법의 벽을 뚫지 못한다.

개인정보 보호법과 생명윤리법이 복잡하게 얽힌 틈바구니에서 연구자 또는 사업자를 어렵게 하는 상황이 싹튼다. 유전체 정보에 민감한 생명과학자로서 이 문제를 진지하게 파고들어 보고 싶다.

미국 NHIGRI(National Human Genome Research Institute)의 Privacy in Genomics도 처음 공부하면서 읽기에 좋은 자료이다. 개정 커먼룰(Common Rule)의 유전체 시퀀싱 및 인체유래물에 관한 정책 변경 사항도 읽어보기 시작하였다. 정작 내가 커먼룰이 무엇인지 알게 된 지는 얼마 되지 않았다! 아, 유럽의 개인정보 보호법에 해당하는 GDPR(General Data Protection Regulation)도 그렇구나...

2022년 8월 30일, 9월 8일, 9월 19일 업데이트

개인정보보호법에서는 제23조에서 '민감정보'를 언급하고 있다. 민감정보란 사상·신념, 노동조합·정당의 가입·탈퇴, 정치적 견해, 건강, 성생활 등에 관한 정보, 그 밖에 정보주체의 사생활을 현저히 침해할 우려가 있는 개인정보로서 대통령령으로 정하는 정보라 하였다. 유전자검사 등의 결과로 얻어진 유전정보도 여기에 포함된다. 그러나 여기에서 정의한 민감정보(즉 개인정보의 일부)는 동법 제2조1항의 개인정보 정의 목록 3가지(가, 나, 다) 중 어느 것에 해당하는지 잘 파악이 되지 않는다. 

여기까지 글을 쓴 다음 관련 자료를 더 찾아서 읽어 보았다. 우리나라 개인정보보호법 조문에 나타나는 '개인정보'의 해석을 아주 주의해서 해야 된다는 생각이 들었다. 일단 동법 2조에 나오는 개인정보의 정의가 가장 중요하다. 23조에 나오는 민감정보의 설명에서는 '이러이러한 개인정보'라 하였는데, 여기서의 개인정보는 2조의 개인정보가 아니라 넓은 의미의 개인정보, 즉 개인과 관련된 정보로 보는 것이 타당할 것 같다는 결론을 내렸다. 물론 이는 나의 주관적인 생각이다. 민감정보와 더불어 '개인식별정보' 역시 동법 제24조에서 별도로 정의하고 있다. 

나의 의문을 다시 정리해 보겠다. 민감정보와 개인식별정보는 매우 중요하므로 어떤 정보가 여기에 포함되는지, 그리고 처리에는 어떤 주의를 기울여야 하는지를 별도의 조문(시행령 포함)에서 정의하였다. 그런데 민감정보와 개인식별정보는 동법 제2조제1호에서 가-다목으로 나열한 개인정보의 정의 중 어느 것에 해당하는가? 그런 것과 상관이 없나? 누가 좀 속 시원하게 답변을 해 주면 좋겠다.

9월 16일 코엑스에서 열린 <디지털 헬스케어 연합포럼 2022>에서 주제발표자로 참석한 곽환희 변호사(법무법인 오른하늘)에게 이메일로 이 궁금증을 문의해 보았다. 제4회 대한민국 4차 산업혁명 페스티벌 2022 행사의 일환으로 열렸던 이 행상에서 곽 변호사는 <국내 디지털 헬스케어 관련 법 규제와 입법 진행 상황>을 주제로 발표를 하였었다. 유익한 행사를 책상에 앉아서 유튜브로 편안하게 볼 수도 있지만, 현장에 직접 가게 되면 발표자 등 주요 인사와 명함을 주고받으며 인연을 맺을 수 있다는 것이 무엇보다도 좋은 일이다. 이메일로 받은 답변을 허락을 얻은 뒤 여기에 공개해 본다.

곽 변호사님, 고맙습니다^^ 

  1. 민감정보의 경우 같은 법 제23조 제1항에서 이에 대해 열거하고 있고, 같은 법 시행령 제18조 각 호에서 추가로 정보주체의 사생활을 현저히 침해할 우려가 있는 개인정보를 나열하고 있습니다. 민감정보의 경우 그 자체로 개인을 식별할 수 있는 정보(건강, 범죄경력자료 등)가 있기도 하지만, 다른 정보와 결합하여 개인을 식별할 수 있는 정보(사상, 신념, 정치적 견해 등)도 있기 때문에 같은 법 제2조 제1호 가목과 나목이 혼재한다고 생각하시면 될 것 같습니다.
  2. 개인식별정보의 경우 같은 법 시행령 제19조에서 개인식별정보에 대해서 열거하고 있고, 주민등록번호, 여권번호, 면허번호, 외국인등록번호가 이에 해당합니다. 따라서 그 자체만으로 개인을 식별할 수 있기 때문에 같은 법 제1조 제1호 가목에 해당한다고 할 수 있습니다.
지난 1월 10일 후생신보의 2022 신년특집 4차 산업혁명시대 '디지털 헬스의 새로운 시작'에도 곽 변호사의 기고문 <3. 보건·의료데이터의 활용과 법적제한>이 실렸기에 여기에 그 URL을 소개하도록 한다. 6개 글 전부를 숙독하여도 좋을 것이다.

댓글 없음: