2017년 7월 5일 수요일

Circlator: 세균 유전체 서열을 원형으로 만들기

세균의 염색체는 원형 구조를 이루고 있다. 간단히 말하자면 목걸이, 훌라후프, 도우넛... 그런 것을 연상하면 된다. 둥근 지구에 끝과 시작이 없듯이 세균의 염색체 역시 그러하다. 다만 편의상 복제 원점(oriC, 보통은 chromosome replication initiation protein인 DnaA의 유전자의 upstream 영역)을 시작 위치로 정한다.

대장균 K-12 MG1655의 유전체 서열은 그러나 이러한 기준을 따르지 않는다. 왜냐하면 Hfr strain(donor)에 의한 conjugation 과정에서 recipient cell로 넘어가는 염색체 부분을 genetic map에서의 시작점(그래서 단위가 분, 즉 시간이다)으로 삼았기 때문이다. 그래서 NCBI에 등록된 대장균 K-12 MG1655(NC_000913.3)의 첫번째 유전자는 dnaA가 아니라 thrL이다. 각 Hfr strain은 F factor가 삽입된 위치가 다르므로 conjugation으로 전달되기 시작하는 위치는 서로 다르다.

엄밀히 따지자면 야생형 대장균 K-12에서 MG1655까지 이르는 계보 상에는 Hfr strain이 존재한 적이 없다. 이미 고인이 된 Barbara J. Bachmann의 대장균 족보(PDF 원본)에서 8번 챠트를 살짝 빌려왔다.

역사적인 conjugation 실험을 통해서 초보적인 수준의 유전체 지도를 얻었던 당시, donor로 사용한 strain이 수용체 세포로 밀어넣기 시작하는 염색체 부분에 바로 threonine 생합성 오페론이 있었을 뿐이다. 이때 사용한 균주가 MG1655의 직계 조상은 아니었던 것이다. 정확하지는 않지만 아마도 HfrH(Hayes) strain이 아닌가 한다. 이를 확인하려면 1953년에 나온 논문을 뒤져야 하는데... 다음 그림을 보면 HfrH가 염색체를 어디부터 transfer하는지를 잘 보이고 있다.




어찌되었든 아무리 최신의 long read를 사용한 genome sequencing 방법을 동원한다 하여도 얻어지는 contig는 하나의 긴 선형 구조를 할 수밖에 없다. 이것이 원형의 염색체에서 유래했다면 선형 서열의 시작과 끝 부분에는 당연히 중복이 존재할 것이다. 이를 조금이라도 성의있게 다듬어서 논문으로 보고하자면 최소한 시작이나 끝 부분 어느 하나의 겹치는 염기서열을 제거해야 할 것이고, 더 정성을 들이자면 dnaA 유전자가 첫번째 유전자로 위치하도록 서열을 조정하는 일이 필요하다.

예전에는 sequence alignment tools을 적당히 사용하여 contig 말단의 겹침을 확인하고 수작업으로 최종 정리를 하였었다. 말단의 겹침을 시각적으로 나타내는 도구(Gepard)가 있는가하면, 이러한 후작업 요령이 친절하게 웹문서로 나오기도 하였다(동영상 튜토리얼; Circularizing and trimming). 상당한 뒷북이지만 2015년 Genome Biology에는 아예 circularization을 자동으로 수행하는 도구인 Circlator라는 소프트웨어를 소개하는 논문이 나오기도 하였다.

'이러한 도구가 있으면 편리하지 않을까?'

대부분의 것들은 이미 누군가에 의해서 해결이 된 상태이다. 나는 검색을 통해서 이를 잘 찾아내어 쓰기만 하면 된다. 세상은 참 고맙고 편리하다. 그러면 '나'라는 연구자는 도대체 여기에 무엇을 기여해야 한단 말인가?



댓글 없음: