게놈 고물상 영업을 시작하면서 다른 사람이 10년 전에 쓴 논문에서 오타를 발견해 내고는 잠시 학문적 희열(?)을 느낀 적이 있었다. 돌이켜 보면 '누워서 침뱉기'나 다름이 없었다. 그 논문에서는 내가 공동 제1저자였기 때문이다... 그리고 부끄러운 일을 하나만 더 고백하자면 나의 경력에서 큰 의미가 있는 첫 논문에서는(당연히 내가 제1저자) 초록에 오타가 떡하니 들어간 상태로 인터넷에 박제가 되어 있다. 그것도 어떤 생명체의 학명, 즉 고유명사를 잘못 기록했으니 그 미생물에게는 매우 실례가 되는 일이다.
오늘 이와 비슷한 나의 실수를 또 찾아내고 고해성사를 올리는 글을 써 보겠다. 연구실에서 널리 쓰이는 유명한 대장균 중에는 K-12, B, W 등이 있다. 'C' 균주는 Crooks strain의 약칭일 것이라고 짐작하고 몇 편의 논문에서 이 균주의 약칭을 잘못 쓴 일이 있다. KCTC에서 분양을 받을 때에는 KCTC 2571이라는 번호를 이용하였다. ATCC 카탈로그 번호는 8739. 박테리오파지를 사용하던 분자유전학 태동기의 실험에서 대장균 균주를 K나 B라는 이름으로 불렀으므로, 알파벳 한 글자로 이루어진 약자를 쓰는 것이 대장균 활용 업계의 관행이라는 오해가 들 만도 하다. 나는 오늘까지 내가 연구에서 사용한 균주가 C strain이라고 생각했었는데, 실제로 이는 Crooks strain이며, C strain은 전혀 다른 녀석이었다.
대장균 W strain('Waksman's strain, ATCC 9637)의 유전체 해독 및 게놈 스케일 대사 네트워크 구성 논문(BMC Genomics, 2011년)에서도 나는 열심히 454 read에서 만들어진 contig를 fosmid end read로 얽어서 스캐폴드를 만들고 열심히 finishing을 했었다. 이 논문에서도 이런 문구가 나온다. Lonnie O. Ingram 그룹에서 처음에 Crooks strain의 유전체를 해독하여 논문을 발표할 당시에 Crooks strain을 C strain이라고 표기한 것이 문제의 발단인 것으로 보인다.
When it was sequenced in 2007, ATCC 8739 was designated as a C strain [PMID 17972330], however, it is in fact a Crooks strain [4] and recent publications have reflected this correction [PMID 19918073, 19837840]. Of these five safe strains, K-12 [11], B [12] and Crooks [GenBank:CP000946] have been sequenced, but C and W have not.
논문 공저자의 역할이 뭔가? 내가 만든 데이터로 그림과 표를 잘 만들고 이에 부속되는 본문을 잘 쓰는 것도 중요하지만, 논문 전체를 다 읽어 보면서 잘못된 것은 지적하고 미처 모르던 것을 발견하면 이를 잘 소화하여 내것으로 만들어야 하지 않는가? 만약 2011년 출판된 당시의 논문을 보다 더 세밀하게 읽었다면(게다가 나는 이 연구에 참여한 논문 공저자가 아닌가) Restrictionless strain으로도 알려진 대장균 C strain은 Crooks strain이 아니라는 것을 진작에 깨달았을 것이다. 진짜 대장균 C strain의 유전체 해독 결과는 비교적 최근이라 할 수 있는 2019년에 발표되었다(Król 등, PMID 31640553). 논문 초록을 인용해 보면 다음과 같다.
Escherichia coli C forms more robust biofilms than other laboratory strains. Biofilm formation and cell aggregation under a high shear force depend on temperature and salt concentrations. It is the last of five E. coli strains (C, K12, B, W, Crooks) designated as safe for laboratory purposes whose genome has not been sequenced.
실험 목적으로 사용하기에 안전한 다섯 대장균 균주 형제인 C, K-12, B, W, Crooks를 기억해 두자. 바로 위에서 소개한 논문을 읽어 보면 C 균주가 언제 분리되어 쓰이기 시작했는지 설명해 놓았다. 조금 더 검색을 해 보니 2018년 Microbiology Resource Announcements에 C 균주의 gapless genome sequence가 발표된 일이 있었고(Pekar 등, 논문 링크), 이 논문에 의하면 draft 수준의 최초 게놈 서열은 2016년에 GenBank accession NMKV00000000으로 발표된 일이 있었다고 한다. Król 등의 2019년 논문에서는 Peka 등의 2018년 논문을 언급하지 않았다. 알고서도 언급을 하지 않은 것인지, 또는 아예 몰랐는지? 그건 누구도 모른다.
오늘 우연한 발견으로 위장한 과거의 실수 고백은 K-BDS(국가바이오데이터스테이션)에 등록할 대장균 B 균주 관련 자료를 정리하다가 빚어진 일이다. 유전체 비교 목적으로 K-12 MG1655의 염기서열을 샅샅이 훑어본 것이 벌써 2005년도이다. 당시에 공개된 자료인 NC_000913.2의 길이는 4,639,675 bp였는데, 현재 버전인 NC_000913.3은 4,641,650 bp이다. 무려 2 kb 가까이 늘어났다. 미생물 유전체 입장에서는 실로 엄청난 업데이트에 해당한다. 2010년 이전에 이미 충분한 정확도를 확보한 상태로 데이터 베이스에 제출된 염기서열이 '고정'되었을 것으로 생각했으나 그렇지가 않다. GenBank flat file을 앞부분을 살펴보니 2013년 11월 3일에 현재 염기서열로 바뀌었다고 한다. 나중에 심층적으로 조사하고 글을 쓸 거리가 또 하나 늘어났다.
유명한 연구용 대장균 5종 세트 중 B에 속하는 BL21(DE3)와 W의 유전체를 내 손으로 해독하였으니 그것에 대해서는 자부심을 가져도 좋을 것이다. K-12 계열 중 하나인 HB101로 생각하고 잘못 구입한 RR1(HB101 RecA+)도 내가 해독하였지만 인용 회수가 별로 많지 않아서 실망스럽다.
같은 날 오후에 작성한 업데이트
2013년에 이루어진 대대적인 K-12 MG1655의 유전체 염기서열 업데이트에 관한 설명이 위스콘신-매디슨 대학의 E. coli Genome Project 웹사이트에 소개되어 있었다. 새로운 IS1 삽입이 아주 큰 이벤트였다. 관련 논문을 아직 읽어 보지는 않았기에, 이것이 최근에 일어난 IS transposion인지 또는 stock-to-stock variation을 반영한 것인지는 알 수 없다.
Sequence update (September 26, 2013)
Monica Riley 등이 쓴 논문 Escherichia coli K-12: a cooperatively developed annotation snapshot - 2005(Nucleic Acids Research 2006, Vol. 34, No. 1, 1-9)에 이런 문구가 있다.
We refer to this outcome as a ‘snapshot’ to emphasize that information about E.coli genes and their products are a moving target, and overtaken rapidly with more recent information.
이 논문에서는 최신 유전체 주석화 성과를 '움직이는 타겟'이라고 하였지만, 염기서열 자체가 바뀐다는 것은 타겟 아래의 지면이 움직이는 것과 마찬가지의 큰 사건이다. 이 움직이는 타겟을 수십 년 동안이나 애정을 갖고서 들여다 본다는 것이 정말 대단하다. 그러한 대가들의 노력과 성과를 단 0.5%라도 따라 갈 수만 있다면 좋겠다.
2024년 7월 9일 업데이트
대장균 K-12 MG1655 유전체 염기서열의 지난번 업데이트에 관한 이야기는 2020년에 글로 작성해 둔 적이 있었다(대장균 K-12 MG1655의 유전체 서열 히스토리). 지금 다시 읽어보니 왜 이렇게 새롭게 느껴지는 것일까?