아직 논의가 완전히 끝난 것은 아니지만, 4월 말에 참석했던 NCBI Prokaryotic Annotation Workshop(NCBI PAW)은 genome project의 결과물을 수시로 등록하는 나에게는 매우 중요한 행사였다.
해묵은 논점 중의 하나가 기능을 모르는 단백질의 이름을 어떻게 붙일 것인가 하는 점이다. 그러면 hypothetical protein은 도대체 무엇인가? 전통적으로 이 명칭은 다음의 세 가지 경우(엄밀히 말하면 모두 다른 의미)에 대해서 쓰여 왔다.
1. A protein whose existance is in question
2. A protein whose function/process is unknown or not predictable
3. Both of above
문법적으로 가장 적합한 것을 고른다면, 1이 되겠다. 그러나 NCBI PAW를 통해서 다음과 같은 합의를 이끌어 낼 수 있었다. 첫째, 단백질의 이름은 그 단백질이 존재함을 주장하는 기구는 아니다. 마찬가지로, 단백질의 이름이란 그 단백질의 실험적 특성 결정 수준을 주장하는 기구도 아니다.
Hypothetical protein, uncharacterized protein, protein of unknown function, protein of unassigned function의 네가지 중에서 protein of unassigned function이 가장 유력하다.
potential, precursor, conserved, unique, protein of unknown function, novel, fragment, similar to...
자, 그렇다면 gene prediction program으로 예측은 되었으나 다른 증거는 하나도 없는 단백질, 그리고 기능을 모르는 단백질에 대해 상동성이 있는 단백질을 서로 구별할 것인가? 그동안 널리 써 오던 명칭으로 부른다면 전자는 hypothetical protein이요, 후자는 conserved hypothetical protein 정도가 되겠다. AutoFACT 식으로 이야기한다면, 전자는 Unclassified, 후자는 Unassigned protein이다. 이를 모두 뭉뚱그려서 protein of unassigned function으로 해도 좋을까?