들어가며
최근 생명과학과 인공지능(AI)의 결합은 더 이상 낯선 이야기가 아니다. 유전체 분석, 신약 개발, 단백질 구조 예측, 임상 데이터 분석 등 다양한 영역에서 AI는 이미 핵심 도구로 자리 잡고 있다. 그러나 한 가지 질문이 남는다.
“우리의 데이터는 과연 AI를 바로 학습시킬 수 있는 상태인가?”
이 질문에 답하기 위해 등장한 개념이 바로 AI-ready data이다.
AI-Ready Data의 의미
생명과학 분야에서 AI-ready data란 단순히 디지털 파일이 존재한다는 뜻이 아니다. AI 모델이 별도의 대규모 수작업 전처리 없이 즉시 학습과 추론에 활용할 수 있도록 구조화·정제·표준화·법적 정합성을 갖춘 데이터 상태를 의미한다.
즉, “데이터가 있다”는 것과 “AI가 쓸 수 있다”는 것은 전혀 다른 문제이다.
AI-Ready 데이터의 핵심 조건
- 기계가 읽을 수 있는 구조 (PDF 보고서가 아닌 구조화된 포맷)
- 표준화된 형식 (FASTQ, VCF, FHIR 등 국제 표준 기반)
- 용어·단위의 정렬(harmonization)
- 결측치 및 오류 정제
- 지도학습이 가능한 레이블 존재
- 법·윤리적 이용 근거 확보
이 중 어느 하나라도 빠지면, 데이터는 존재하더라도 AI-ready 상태라고 보기 어렵다.
분야별 예시
1. 유전체 데이터
유전체 분야에서는 다음과 같은 조건이 충족되어야 한다.
- 품질 검증(QC)이 완료된 FASTQ
- 정렬이 끝난 BAM 파일
- 동일 reference build 기준의 VCF
- 정형화된 phenotype 메타데이터
- IRB 또는 동의 기반의 합법적 이용 근거
reference genome이 섞여 있거나, 표현형 정보가 서술형 텍스트로만 존재한다면 AI 학습용 데이터로 사용하기 어렵다.
2. 신약 개발 및 단백질 구조 데이터
단백질 구조 파일의 형식이 일관되지 않거나, binding affinity 단위가 뒤섞여 있다면 AI 모델은 제대로 학습하기 어렵다. SMILES 표현의 표준화와 타깃 명칭의 정렬 또한 필수적이다.
3. 임상 및 바이오메디컬 데이터
- ICD, SNOMED 코드화
- 단위 통일
- FHIR 기반 구조화
- 비식별화 처리
- 시간 정보(timestamp) 정규화
임상 데이터는 특히 법적·윤리적 요건을 충족하지 않으면 AI-ready가 될 수 없다.
FAIR와 AI-Ready의 차이
FAIR 원칙(Findable, Accessible, Interoperable, Reusable)은 데이터 공유를 위한 기준이다. 반면 AI-ready는 한 걸음 더 나아가 “기계 학습이 가능한 상태”를 요구한다.
수치 일관성, feature 생성 가능성, 레이블 품질, 데이터 편향 관리까지 포함하는 개념이 AI-ready라고 할 수 있다.
데이터 성숙도 관점
| 단계 | 설명 |
|---|---|
| Level 0 | 원자료(raw) |
| Level 1 | 정제 완료 |
| Level 2 | 표준화 |
| Level 3 | 메타데이터 완비 |
| Level 4 | ML 학습 즉시 가능 |
| Level 5 | 대규모 foundation model 학습 가능 |
많은 국가 인프라는 Level 2~3에 머무르는 경우가 많다. 그러나 산업과 AI 모델은 Level 4~5를 요구한다. 이 간극이 현재 바이오 데이터 전략의 핵심 병목이다. 여기에서 제시한 6개 단계는 특정 표준 규격이 아니라 설명 목적으로 제시한 것이다.
맺음말
AI-ready data는 단순한 기술 용어가 아니다. 이는 데이터 표준, 품질 관리, 법적 정합성, 국가 전략, 그리고 미래 산업 경쟁력과 직결된 개념이다.
이제 질문은 하나로 정리된다.
“우리는 데이터를 저장하고 있는가, 아니면 AI를 준비시키고 있는가?”
AI-ready data의 단순한 현황 집계(따라서 많은 행정력을 낭비하게 되는)를 비판적으로 바라본 별도의 글('The Illusion of Measuring AI-Ready Data, AI 데이터는 숫자로 세어지는가')로 작성해 두었다. 데이터를 AI-ready 형태로 만드는 일, 심지어 데이터가 AI 활용 가능한 상태인지 판별하는 일 자체도 연구의 영역일 수 있다.
