2018년 7월 5일 목요일

ISMapper (2015)

국문에서는 괄호와 그 앞에 오는 낱말을 붙여쓰는 것이 관례이다. 그러나 영문에서는 철저히 공백을 두어야 한다. 이 글의 제목을 적으면서도 'ISMapper (2015)'와 'ISMapper(2015)' 중 어느 것으로 할지 고민을 하다가 영문만으로 작성된 것이라서 공백을 넣는 쪽으로 하였다.

유전체 내에는 다양한 반복 서열이 존재한다. 많은 경우 이들은 유전체 내의 다른 위치로 자기의 복제본을 삽입할 수 있는 transposable element이기도 하다. Transposition이라 하면 쉽게 말하여 자리를 바꾸는 것이다. 극장이나 공연장을 찾아서 자리에 앉았는데 빈 좌석이 많은 상태로 공연이 시작되면 앞자리로 옮기는 경우가 종종 있다(나중에 그 자리의 원 주인이 나타나면 낭패!). 이것이 바로 transposition에 해당하는 현상이다. 실제로 염색체 내에서 일어나는 transposition은 원래 위치를 고수하면서 다른 자리에 자기의 분신을 끼워넣는 일이 더 많이 벌어진다. 그렇게 되어야 그 copy number가 많아지면서 반복 서열이라 불리지 않겠는가?

유전체 진화에서 반복 서열이 갖는 의미에 대해서는 별도의 주제로 다루어도 될만큼 간단하게 기술하기는 어렵다. 간혹 생명공학적 접근을 위해 IS(insertion sequence - 박테리아에서 발견되는 가장 보편적인 transposable element로서 transpoase 유전자 말고는 다른 기능이 없는 것)를 철저하게 제거하는 것을 목표로 삼는 연구 프로젝트도 있었다. IS는 유전체의 안정성을 해치는 가장 직접적인 요인이 되기 때문이다. 

내가 이 생각을 완전히 바꾸게 된 것은 대장균의 K-12 MG1655와 B strain의 유전체를 비교하는 일을 하면서부터였다. 대장균 B 스트레인의 생물공학적 유용성을 이야기할 때 빠지지 않는 것은 OmpT 및 lon protease가 없어서 재조합 단백질을 온전한 형태 그대로 생산하는데 매우 유리하다는 것이었다. 하지만 이들 단백질 분해 효소가 그 기능을 발휘하지 못하는 것은 IS와 관련된 현상으로 확인되었다. 있으면 안될 것만 같은 IS가, 오히려 특정 유전자를 망가뜨림으로서 결론적으로는 인류가 이를 이용하는데 유익한 특성을 제공하고 만 것이다!

만약 우리가 배양 조건을 영원히 고정할 수만 있다면, 박테리아의 유전체는 엔지니어링을 했던 그대로 유지되는 것(즉 높은 안정성)이 유리할 것은 자명하다. 그러나 자연적인 환경 조건은 늘 변하는 것이라서 박테리아는 이에 대처하여 '자기 혁신'을 이루어야 한다. IS가 이러한 혁신(돌연변이)의 원동력으로서 크게 기여한다는 것이 나의 철학이다. 마치 요즘 나오는 수퍼히어로 영화에서처럼 선과 악의 구별이 명확하지 않은 것과 비슷한 상황이다.

서론이 쓸데없이 길어졌다. 오늘의 글감으로 삼은 것은 NGS 유래 short read sequencing data를 이용하여 IS의 삽입 위치를 찾아내는 소프트웨어인 ISMapper이다.
ISMapper: identifying transposase insertion sites in bacterial genomes from short read sequence data. BMC Genomics 2015 (PubMed GitHub)
삽입된 IS의 위치는 프로그램 실행 시 제공하는 reference genome 상의 포지션을 기준으로 나타내어 준다. Simulated read와 real data를 사용하였을 때 각각 97%와 98%의 비율로 IS의 삽입 위치를 찾아내는 성적이라면 나쁘지 않다. 단, 이 소프트웨어는 IS를 스스로 찾아주는 것은 아니다. 찾아내고 싶은 IS의 서열을 query로서 제공해 주어야 한다. 주어진 염기서열에서 IS를 찾는 것은 ISfinder를 활용해야 한다. ISMapper의 작동 방법은 다음의 그림에서 설명하고 있다. IS가 삽입된 경계 부위에서 발생한 sequence read는 IS query와 삽입 위치 전부에 매핑이 될 것이니 이를 찾아내는 것이 핵심이 될 것이고, 가능하다면 IS의 삽입 표적에서 duplication되는 서열도 확인하려고 노력한다.

출처: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4558774/figure/Fig1/
결과는 reference genome을 기준으로 IS 삽입 위치를 제공하는 것이므로 reference와 동일한 위치에 삽입되었거나 혹은 novel 위치에 삽입되었음을 구별해 준다. 그리고 여러 샘플을 시퀀싱한 경우 이를 종합한 표를 만드는 유틸리티도 제공한다.

결과의 시각화 방법에 대해서는 아직 고민을 하는 중이다. 원형? 선형? 만약 샘플이 100종에 육박한다면 어떻게 이를 효율적으로 표현할 것인가? Anvi'o를 이번 기회에 활용해 보는 것은 어떨까?

만약 나에게 컴퓨터와 무한한 시간이 주어진다면 IS, prophage, restriction-modification system... 이런 것의 의미에 대해서 연구하고 싶다.

댓글 없음: