2017년 10월 18일 수요일

Fold change를 표현하는 방법

생명과학 연구에서 유전자 발현량을 두 조건에 대하여 서로 비교하고자할 때 fold change(FC)를 많이 이용한다. 이 수치는 DEG(differentially expressed gene)을 찾는데 매우 중요한 의미를 갖는다. FC의 정의는 비교 조건(treatment)의 값을 기준 조건(control)의 값으로 나누는 것이다.
FC = treatment / control
두 조건의 값이 같으면 당연히 FC = 1이다.

그런데 두 발현량의 비율을 FC로 표현하는 것에는 몇가지 불편한 점이 따른다. 첫째는 기준 조건의 값이 0일 경우이다. 수학에서 분모가 0인 것은 대단히 좋지 못한 상황이 된다. 만약 FC를 엑셀에서 계산한다면 어떻게 할 것인가? researchgate, seqanswers, biostars 등에는 이에 대한 질문과 꽤 심도있는 대답이 오고가기도 한다. 0을 실험에서 나올 수 없는 값으로 보는 견해도 있고(따라서 아주 작은 숫자로 치환한다든지), 아예 높은 값을 대입하는 사람도 있다고 한다. 실제 세계에서는 모든 조건의 값에 0을 더한 뒤(나중에 log2 transform을 해야 할 일도 있으므로) 모든 조건의 값을 합했을때 일정 값에 미치지 않는 row(=gene)을 제거해버리기도 한다. 예를 들어서 9개 조건의 RNA-seq 데이터를 매트릭스 형태로 합친 다음, 동일 row의 값을 다 더했을때 6이 되지 않으면 그 유전자는 제거하는 것이다.

FC = treatment/control라는 수식을 그대로 따르면 1을 기준으로 너무나 비대칭적인 값을 얻게 된다는 것도 문제이다. 즉 control < treatment이면 FC는 1보다 큰 값을 가지며 그 범위도 매우 넓다. 그러나 control > treatment 이면? 0 < FC < 1이 되어 너무 좁은 범위에 FC가 분포하게 된다. 이를 해결하는 방법 중 하나는 FC를 그대로 쓰지 않고 log2(FC)로 전환하는 것이다. 단 FC = 0인 것은 적절히 제거를 하든지 전처리를 해야 한다.

FC에 밑이 2인 log를 씌우면 대칭적인 값을 얻음과 동시에 음수(-)가 나올 수도 있다. 설명하자면 다음과 같은 것이다.

log2(FC) = 1, 2, 3이면 control에 비하여 treatment가 2배, 4배(22), 8배(2).
log2(FC) = 0이면 control과 treatment는 같다.
log2(FC_ = -1, -2, -3이면 control에 비하여 treatment가 1/2배, 1/4배(2-2, 1/8배(23).

2, 3...이면 22배, 23배로 표현되는 것이 불편한가? 숫자 그대로 2배, 3배를 원하는가? 이런 사람에게는 다른 방식으로 FC를 표현하면 된다. control < treatment이면 FC의 원래 정의(treatment/control)를 그대로 따른다. 그러나 control > treatment라면 새로운 FC, 즉 new FC = - 1/FC를 쓰는 것이다. 이렇게 정의하면 new FC = -2, -3, -4는 control이 treatment에 비하여 2배, 3배, 4배 많다는 뜻이다. 굉장히 자연스럽고 직관적인 표현이다.  대신에 이렇게 정의한 FC는 -1 .. 0 .. 1 범위의 값은 갖지 않는다. 정확히 말하자면 control = treatment일 때에 FC = 1이 되겠지만, 여러 replicate의 값을 normalize한 뒤 평균을 구하면 각 조건 그룹의 값이 완전히 똑같아지는 일은 잘 일어나지 않는다.

CLC Genomics Workbench에서는 FC를 바로 이런 방식으로 표현한다. 매뉴얼의 원문을 그대로 인용해 본다.
  • Fold Change (original values). For a two-group experiment the 'Fold Change' tells you how many times bigger the mean expression value in group 2 (treatment) is relative to that of group 1 (control). If the mean expression value in group 2 is bigger than that in group 1 this value is the mean expression value in group 2 divided by that in group 1. If the mean expression value in group 2 is smaller than that in group 1 the fold change is the mean expression value in group 1 divided by that in group 2 with a negative sign. Thus, if the mean expression levels in group 1 and group 2 are 10 and 50 respectively, the fold change is 5, and if the and if the mean expression levels in group 1 and group 2 are 50 and 10 respectively, the fold change is -5. Entries of plus or minus infinity in the 'Fold Change' columns of the Experiment area represent those where one of the expression values in the calculation is a 0. For experiments with more than two groups, the 'Fold Change' column contains the ratio of the maximum of the mean expression values of the groups to the minimum of the mean expression values of the groups, multiplied by -1 if the group with the maximum mean expression value occurs before the group with the minimum mean expression value (with the ordering: group 1, group 2, ...). (원문 링크)

댓글 없음: