2020년 5월 14일 목요일

대장균 K-12 MG1655의 유전체 서열 히스토리

대장균(Escherichia coli)은 사람의 대장에 사는 미생물 중 그 수가 가장 많은 것도 아니고, 인체와 상호작용을 하는 것 중에서 가장 중요한 것도 아니며, commensal과 pathogen의 양면성을 모두 갖춘 모호한 생명체이다. 인공적인 배양 조건에서 잘 자란다는 특성 때문에 어쩌다보니 과학자의 띄어서 일찌감치 실험실 식구가 된 것이다.

NCBI에 공개된 Escherichia coli K-12 MG1655의 유전체 정보는 GenBank accession으로 U00096.3이다. 점 뒤에 이어지는 숫자는 염기서열 업데이트에 따르는 버전 번호이다. 따라서 1997년 Science 논문의 발표와 때를 같이하여 처음 서열이 공개된 후 모두 두 번 개정이 이루어졌다는 뜻이다. 유전체 서열의 변화를 동반하지 않는 주석화 정보의 변화는 이보다 더욱 빈번하게 이루어졌을 것이다. 즉, 연구를 통하여 유전자의 번역 개시 위치를 개정하거나, product 이름이 바뀌거나, pseudo로 처리하거나 등등의 변화는 유전체 염기서열이 고정된 상태에서도 일어날 수 있다.

염기서열 버전에 따른 세 개의 레코드(GenBank flat file)를 받아서 첫 줄을 출력해 보았다. 여기에 표시된 날짜는 각 레코드의 최종 개정일이다. 이것만으로는 예를 들어 U00096.2가 언제 공개되었는지 알기가 어렵다.

$ head -n 1 *gbk
==> U00096.1.gbk <==
LOCUS       U00096               4639221 bp    DNA     circular CON 22-NOV-2002

==> U00096.2.gbk <==
LOCUS       U00096               4639675 bp    DNA     circular BCT 26-FEB-2013

==> U00096.3.gbk <==
LOCUS       U00096               4641652 bp    DNA     circular BCT 24-SEP-2018

유럽 ENA의 U00096.3Show Version History라는 것이 있어서 클릭을 해 보았다. 흠, 이것도 도움이 되지 않는다.

{
  "accession" : "U00096",
  "versions" : [ {
    "accession" : "U00096",
    "sequenceVersion" : 3,
    "firstPublic" : "23-FEB-2006",
    "lastUpdated" : "25-SEP-2018",
    "text" : "https://www.ebi.ac.uk/ena/browser/api/embl/U00096.3",
    "fasta" : "https://www.ebi.ac.uk/ena/browser/api/fasta/U00096.3",
    "status" : "public"
  }, {
    "accession" : "U00096",
    "sequenceVersion" : 2,
    "firstPublic" : "23-FEB-2006",
    "lastUpdated" : "04-SEP-2011",
    "text" : "https://www.ebi.ac.uk/ena/browser/api/embl/U00096.2",
    "fasta" : "https://www.ebi.ac.uk/ena/browser/api/fasta/U00096.2",
    "status" : "suppressed"
  }, {
    "accession" : "U00096",
    "sequenceVersion" : 1,
    "firstPublic" : "18-JUL-2002",
    "lastUpdated" : "24-JUL-2003",
    "text" : "https://www.ebi.ac.uk/ena/browser/api/embl/U00096.1",
    "status" : "suppressed"
  } ]
}

도대체 어디에 가야 release history가 보일까? 아! 등잔밑이 어두웠다. U00096.1 flat file의 COMMENT 항목에 이런 글이 있다. v2가 나왔다는 것을 v1에 기록해 두다니 이렇게 친절할 수가!
[WARNING] On Jun 21, 2004 this sequence was replaced by U00096.2.
그러면 U00096.2의 COMMENT에도 이와 동등한 언급이 있을 것으로 기대하고 파일을 열어보았다. 맞다. 여기에 아주 잘 기록되어 있었다.
[WARNING] On Sep 26, 2013 this sequence was replaced by U00096.3.
U00096.2에서 U00096.3으로 유전체 염기서열이 변하게 된 것에 대해서는 2017년에 출간된 논문 The EcoCyc database: reflecting new knowledge about Escherichia coli K-12(Nucleic Acids Research 45: D543-550)에서 친절하게 설명하였다. 해당 부분을 번역해 보았다.
GenBank 레코드가 U00096.2에서 U00096.3으로 바뀐 것은  이전 버전(.2)이 MG1655 균주의 특정 isolate에 정확하게 대응하지 않았기 떄문이다. 시퀀싱된 것으로 알려진 MG1655의 기탁균주(ATCC 700926와 CGSC7740)와도 서열이 달랐고, stock center에 각각 보관된 균주의 차이에 대한 보고도 있었다. 가장 중요한 것은 가장 최근에 시퀀싱된 균주는 전사조절인자를 암호화하는 crlglpR, 그리고 갈락티톨 수송단백질을 암호화화는 gatC에 돌연변이가 존재한다는 것이다. 그 원인은 IS 삽입과 기타 indel에 의한다.
U00096.3 레코드를 확인해 보자. crl(b0240)은 IS1I의 삽입에 의해 무력화되어 pseudo 처리되었고, glpR(b3423)와 gatC(b2092)도 pseudo qualifier를 달고 있다. EcoWiki에 이에 대한 설명이 나온다. 이거야 원, 보통 헷갈리는 것이 아니다.

오늘 다운로드한 U00096.3.gbk 파일의 앞부분에 붙어있는 reference를 정리하여 보았다. 총 18개의 항목 중에서 실제 출판된 논문에 해당하는 것은 3개이다. 다들 역사적으로 중요한 논문임은 말할 나위도 없다. 저자들 중에는 EcoGene database의 창시자 Monica Riley(1926-2013)처럼 이미 세상을 떠난 분도 계시다. 바로 위에서 언급한 2017년도 EcoCyc database 논문과 2001년에 Monica Riley 등이 발표한 A functional update of the Escherichia coli K-12 genome(Genome Biol. 2(9): research0035.1–research0035.7 PMID: 11574054) 도 중요하기는 마찬가지이다.

  1. Blattner FR, Plunkett G 3rd, Bloch CA, Perna NT, Burland V, Riley M, Collado-Vides J, Glasner JD, Rode CK, Mayhew GF, Gregor J, Davis NW, Kirkpatrick HA, Goeden MA, Rose DJ, Mau B, Shao Y. The complete genome sequence of Escherichia coli K-12. Science. 1997 Sep 5;277(5331):1453-62. PubMed PMID: 9278503.
  2. Hayashi K, Morooka N, Yamamoto Y, Fujita K, Isono K, Choi S, Ohtsubo E, Baba T, Wanner BL, Mori H, Horiuchi T. Highly accurate genome sequences of Escherichia coli K-12 strains MG1655 and W3110. Mol Syst Biol. 2006;2:2006.0007. Epub 2006 Feb 21. PubMed PMID: 16738553; PubMed Central PMCID: PMC1681481.
  3. Riley M, Abe T, Arnaud MB, Berlyn MK, Blattner FR, Chaudhuri RR, Glasner JD, Horiuchi T, Keseler IM, Kosuge T, Mori H, Perna NT, Plunkett G 3rd, Rudd KE, Serres MH, Thomas GH, Thomson NR, Wishart D, Wanner BL. Escherichia coli K-12: a cooperatively developed annotation snapshot--2005. Nucleic Acids Res. 2006 Jan 5;34(1):1-9. Print 2006. PubMed PMID: 16397293; PubMed Central PMCID: PMC1325200.

대장균 K-12 substrain MG1655가 사람의 장을 떠난 것이 언제일까? 인공적으로 제공된 '편안한' 실험실 배양환경에 맞추어 domestication이 되어서 야생의 성질을 많이 잃었을 것이다. 이에 관련한 논문도 적지 않을 것이다. 예를 들자면 'Natural Escherichia coli isolates rapidly acquire genetic changes upon laboratory domestication (Microbiology 2017)'와 같은 논문 말이다. 대장균은 어쩌면 어둡고 따뜻하며 냄새나던 사람의 큰창자 속을 그리워할지도 모른다. 큰창자, 작은창자... 갑자기 정겹게 느껴지는 토박이말이다. 골, 염통, 콩팥, 살갗... 이런 표현을 왜 점차 덜 쓰게 되는지 모르겠다.

댓글 없음: