2013년 5월 15일 수요일

R: Two-color microarray의 분석: control spot의 처리

Control spot이 포함되어 있는 spotted microarray에서 나온 아름다운(?) 이미지이다. 이 microarray의 GEO platform ID는 대장균용으로 설계된 GPL7395이다.

Microarray 실험에서 control spot은 실험 조건에 따른 발현량을 미리 알고 있는 유전자에 해당한다고 보면 된다. 물론 발현량이 일정하다고 알려진 유전자라 해도 어떤 실험 조건에서는 차이가 있다는 것을 새로 발견하게 되는 경우도 있겠다. 위 그림에서 맨 오른쪽에 있는 violet 색깔의 점들을 보라. 발현량(A)는 높지만 발현비율(M)은 0에 가깝다. 바로 16S rRNA gene에 해당한다.

이 플랫폼에서는 control spot이 워낙 여러번 찍혀 있으므로, 표준화(normalization) 과정에서는 제거하는 것이 옳을 것이다. 위 그림과 같이 각 spot의 성격을 규정해 주는 것은 SpotTypes.txt라는 파일이다. 여기의 첫번째 컬럼(SpotType)의 값이 다음 R code를 통해서 RGList 데이터 오브젝트의 $genes$Status 항목으로 들어간다.

문제점: 이 블로그 페이지에서 '>'가 포함된 R code를 제대로 표기하기가 어렵다. 도움말을 잘 찾아서 읽어보면 해결이 되겠지만...
 > spottypes <- br="" readspottypes="">
> RG$genes$Status <- controlstatus="" p="" rg="" spottypes="">

이걸 그대로 표준화를 하면 control spot까지 그대로 반영될 것이다. 이를 막기 위해서는 가중치(weight)를 사용하는 것이 좋을 것이다. 보통 GPR raw data file에 설정된 flag를 이용하여 0, 혹은 1의 가중치를 주는 경우가 많은데, spot type에 따라서 가중치를 주려면 어떻게 해야 될까?

위에서 사용한 SpotTypes 파일은 예쁜 그림을 그리기 위해 control spot에 대해 각각의 유전자 명칭을 제공했었다. 이제 이들에게 zero weight를 주려면, 별도의 SpotTypes file을 만들어서 control spot은 진짜 "control"임을 명시하면 된다.

표준화 과정에서 제거한다는 것은 어떤 의미인가? 다른 spot들의 표준화에 이들 control spot은 영향을 미치지 않는다는 뜻이다. 그러나 가중치가 0인 spot이라 하여도 기본 조건에서는 표준화를 '당하기'는 할 것이다.

댓글 없음: