2015년 11월 11일 수요일

Spotted microarray (two-color)의 분석은 의외로 어렵다

미국 스탠포드 대학의 Patrick O. Brown 교수가 실험실에서 직접 만든 장비를 이용하여 cDNA microarray 실험에 대한 최초의 논문을 낸 것이 아마도 1995년 10월이었을 것이다. 그 후로 꼭 20년이라는 세월이 흘렀다. NGS 기술이 나온 것은 이제 10년을 넘어가고 있다. 지금은 사라진 MGuide 웹사이트를 참고하여 microarrayer와 scanner를 만들었지만 나는 정작 이를 사용하여 한번도 데이터를 만들지는 못하였다. 생물학자로서 납땜을 하고 직교로봇과 광학 부품을 조립하는 재미는 충분히 누렸었다. 2000년대에 들어서면서 나는 대용량 시퀀싱 쪽으로 방향을 완전히 선회하였다.

21세기 프론티어 미생물유전체활용기술개발사업단에서는 대장균(GPL7395)과 패혈증 비브리오 2종의 연구 대상 미생물에 대한 ologonucleotide microarray chip(스포팅 타입)을 제작하여 배포하였었다. 당시 제작에 관여한 디지탈지노믹스도 지금은 다른 회사로 바뀌어있다. 나도 이 칩을 이용하여 간단한 실험을 하였는데, 아직도 그 결과를 이용한 논문을 내질 못하였다. 어찌하다보니 다른 일에 우선 순위가 계속 밀리기도 하였고 이 실험을 통해 정말 대단하거나 새로운 발견을 하지 못한 이유도 있다. 전처리를 끝난 data를 GEO(GSE47589)에 등록한 것이 벌써 2년 전 초여름의 일인데... 우습게도 몇달 전에는 microarray data의 DB를 구축중이라는 유럽의 어느 연구자로부터 내가 등록한 데이터의 metadata가 잘못된 것 같다는 이메일을 받고 수정을 하는 일이 벌어지기도 하였다.

혼자서 microarray data를 분석해 보려고 애쓰는 과정 중에 자연스럽게 R을 접하게 되었다. 기술적으로 어려운 부분은 같은 연구소에 근무하다가 지금은 창업을 한 동료들을 귀찮게 하면서 물어보기도 하였다. 요즘 들어서 다시 이것들을 들여다 보면서 잊어버린 R(limma) 활용법을 되살리는 중이다. 지금 느끼는 것이지만 two color microarray의 분석이 single color보다 훨씬 어렵다! 특히 통계와 데이터 해석에 대한 사전 지식이 부족한 나에게는 linear model, design matrix 및 contrast matrix는 정말 넘을 수 없는 벽이다. 2011년 무렵부터 limma 매뉴얼을 펼쳐놓고 줄을 그어가며 읽어보고 실습용 코드도 따라 하면서 궁금한 점은 웹에서 검색도 해 보지만 여전히 명쾌하게 이해가 가지 않는다. Two color microarray를 이용한 direct design(공통 reference가 쓰이지 않은)에서 각각의 매트릭스를 정확하게 만드는 예제가 눈에 거의 뜨이지 않는다는 것이 문제이다. 과연 올해가 가기 전에 내가 목적한 바를 달성할 수 있을까?

limma를 쓰지 않고서도 얼마든지 microarray data를 분석하는 것이 가능하다. 그러나 Microarray data의 처리에 관한 깊숙한 곳을 이해하고 더불어서 R을 직접 연구에 활용하는 계기를 만들어 준 것이 바로 limma였으니 그 은공을 잊을 수는 없다. 특히 실험계획법을 체계적으로 배운 일이 없는 나에게 기본적인 개념들을 공부하게 해 주었으니 더욱 고맙지 않은가. "Two color" microarray를 앞으로 연구에 활용할 일은 많지 않겠지만 조금만 더 천착해 보련다.

댓글 없음: