2018년부터 시작된 미국 NIH의 All of Us Program은 All of 'United States (of America)'를 뜻하는 것일지도 모른다고 장난스럽게 생각해 본 일이 있다. 미국 시민권을 갖고 있는 사람으로 참여자를 한정했는지는 모르겠지만, 유전체 의학 연구에서 상대적으로 적게 대표된 인종을 All of Us에서는 많이 포함하려고 노력한 것은 사실이다. 신수용 카카오헬스케어 연구소장의 블로그에서 All of Us 현재 상황이라는 글을 보고 뒤늦게 공부를 시작해 본다.
작년 8월에 315,000명에 대한 데이터 공개 현황을 소개한 논문이 Patterns라는 저널에 실렸다. Patterns라.... 매우 생소한 저널이다. Cell Press에서 출판하는 오픈 액세스 저널로서 'We're all about sharing data science solutions to problems that cross domain boundaries'라고 하였다. 논문의 제목과 링크는 다음과 같다.
The All of Us Research Program: Data quality, utility, and diversity
Highlights
- The All of Us Research Program has released data for over 315,000 participants(참여자의 49%는 비백인)
- Demonstration projects support the utility and validity of the All of Us dataset
- The cloud-based Researcher Workbench provides secure, low-cost compute power.
In brief
The initial release of the All of Us Research Program data reflect diverse participants with broad information, reproduces known associations, and provides rich opportunities for research. The dataset and tools form a strong foundation for cohort growth and future research, advancing the program mission to improve human health and advance precision medicine.
이 논문의 article type은 descriptor에 해당한다.
흥미로운 것은 data science maturity (level)라는 것을 정의해 놓았다. 이 논문은 level 4에 해당한다. 그러나 웹사이트 안에서는 DSML의 5개 레벨에 대한 설명이 보이지 않았다. 아마 실제로 투고를 위해서 로그인을 한 경우에는 저자가 DSML을 적절히 결정하여 입력하도록 되어 있을 것이다.
Data science maturity의 의미를 구글에서 찾아보다가 가트너가 주창한 analytics ascendancy model 및 data maturity model이라는 것도 알게 되었다(링크). 이 개념이 Patterns라는 저널의 data science maturity와 어떤 관계가 있는지는 잘 모르겠지만...
All of Us Research Program 은 참여자를 위한 웹사이트와 연구자를 위한 리서치 허브, 그리고 프로그램 공식 소개 웹사이트로 잘 구분되어 정보를 공개하고 있다. 우리나라에서 곧 출범할 예정인 국가 통합 바이오 빅데이터 구축사업('국통바빅' 또는 '국바빅'이라고 줄여서 부름; 정식 명칭과 영문 명칭도 조만간 결정해야 함)에서도 그런 준비가 되고 있는지 살펴 볼 일이다.
이 논문에서 보고한 과학적 분석 결과는 우울증 및 제2형 당뇨병의 인종적 약물 사용 패턴 차이, 흡연과 알려진 암 연관성 검증, 그리고 알려진 인종 효과에 따른 심혈관 위험 점수 계산의 세 가지이다. 그러나 Research Projects Directory에 등록된 진행 중인 연구는 오늘 기준으로 무려 9,589개나 된다.
국통바빅이 추구하는 것은 이렇게 9,589개나 되는 연구가 활발히 이루어지도록 양질의 바이오 빅데이터를 제공하는 것이다. 9,589개의 데이터 활용 연구 자체를 위한 연구비 지원을 하는 것은 분명히 아닌 것으로 나는 이해하고 있다. 물론 어떤 형태로든 데이터 활용 연구 지원 사업이 조성될 가능성은 있을지도 모른다. 이에 대해서 많은 사람들이 궁금해 할 것은 당연한데, 나도 더 이상은 알지 못한다.
데이터 접근은 다음의 3개 tier로 나뉘어 서로 다른 레벨로 이루어진다(Data Access Tier). Registered/controlled tier의 접근을 위해서는 연구 프로젝트에 대한 설명을 제출해야 한다.
- Public tier(login 불필요): 식별자를 제거한 군집 형태의 데이터셋. Data Snapshot 및 Data Browser를 통해 누구든 접근 가능하다.
- Registered tier(login 필요): 개인 수준의 데이터를 포함하고 있으며, Research Workbench를 통해 승인된 사람만 접근 가능하다. Electronic health record(EHR), 웨어러블, 조사, 신체 계측 자료 등이 포함된다.
- Controlled tier(login + 추가적인 승인 필요): whole genome sequencing과 genotyping array 잘 등이 포함된다.
접근 자격을 얻는 상세한 방법까지는 조사하지 않았다.
How to Register 웹사이트를 방문해 보면 먼저 연구자의 소속기관 차원에서 Data Use and Registration Agreement(DURA)를 받아야 한다. 워크벤치의 계정을 개설하는 것은 그 다음이고, 필수 트레이닝을 이수한 다음 Data User Code of Conduct(DUCC,
PDF 파일)를 받아야 한다. DUCC는 매우 중요한 문서이므로 꼼꼼이 줄을 쳐 가면서 읽어야 할 것 같아서 종이에 인쇄를 해 놓았다.
Data Access Framework도 중요한 정보이다. 단, 이 문서는 2021년 8월에 최종판(v1.1)이 나왔다.
Registered/controlled tier 전부 기관생명윤리심의위원회(IRB)의 승인을 거쳐야 할까? Controlled tier는 당연히 그럴 것 같다. FAQ 항목 중에 이에 대한 내용이 있다(아직 상세하게 읽어보지는 않음). 그런데 Data Access Framework에 의하면 10쪽에 이런 내용이 있다.
The research that occurs within the Workbench is not restricted to IRB review or approval. Users may be bound by institutional policies governing research, which may include local IRB review.
우리나라의 국통바빅 시범사업에서는 폐쇄 전산망 내의 분석 시스템에서만 해당 자료를 이용해야 한다는 것이 불문율이었다. 국통바빅 본사업도 아마 그런 형태인 것 같다. (민간)클라우드를 쓰면 안 되나? All of Us에서는 이미 안전하고 능률적이었음이 입증된 플랫폼인데?
국통바빅 본사업을 준비하는 과정에서는 참여자에게 받아야 하는 동의서(동의서를 '구득'한다는 어려운 표현을 사용함)를 면밀하게 준비하느라 많은 정성을 쏟은 것으로 알고 있다. 이 동의서는 인체유래물등(이렇게 표현해야 유전체 및 오믹스 정보가 포함된다)을 이용한 연구의 정당성을 확보할 수 있기 때문이다. 이것이 전부는 아니고, 나머지 절반은 IRB 심의가 칼자루를 쥐고 있다.
반면 All of Us의 DUCC는 매우 단순명료하다. 참여자의 정보를 누설하거나, 재식별하지 않겠다는 다짐을 받는 정도이다. 식별자를 분리하여 보관하고, 인터넷이 연결되지 않은 컴퓨터에서만 작업해야 하며... 이런 것들을 일일이 규정으로 만들어서 승인을 받지는 않는 것 같다. 심지어 외국인 연구자는 접근하지 못한다는 제한 같은 것은 없다. 심층적으로 들여다 보면 조금 더 까다로울지도 모르겠지만, 상당히 '열린 정책'이라는 점은 분명하다. 우리나라에서 이렇게 해 보자고 강하게 주장하면 아마 뚜껑이 열릴 분이 많을 것이다. Data Access Framework 2쪽에 다음과 같이 가슴 속을 후련하게 해 주는 선언이 있는 것을 참고하도록 하자.
- No restrictions are placed on the use of All of Us resources to develop commercial products and tests to meet public health needs. All of Us claims no intellectual property rights on such commercial products developed from research use of All of Us data.
- All of Us resources should be accessible to users around the world regardless of country of origin, although the access process may be modified to allow appropriate user authentication.
합리적이고 간결하면서도 개방적인 정책 위에 과학과 정밀의학, 맞춤의료가 꽃을 피울 수 있음은 자명하다. 우리나라의 국통바빅 본사업도 그렇게 되었으면 정말 좋을 것이다.