2018년 7월 3일 화요일

손으로 그린 genome alignment

박테리아의 유전체 진화 과정에서 마치 점돌연변이가 가장 빈번하게 일어날 것으로 흔히들 생각하지만(multiple sequence alignment에서 보여지듯), 실제로는 좀 더 과격한 변화가 더 많이 일어나는 것 같다. 예를 들자면 IS(insertion sequence)의 transposition이라든가, 아니면 Ter site, 즉 복제를 개시하는 원점인 oriC의 180도 반대편에 있는 지점을 중심으로 하여 염색체 단편이 뒤집어지는 일이 흔히 벌어진다. 이는 whole-genome alignment plot을 그리면 쉽게 파악할 수 있다.

간혹 교차가 두 번 일어나기도 한다. 최초에 inversion이 일어난 단편 내에서 두번째 뒤집힘이 일어날 수도 있고, 이를 포함하여 그 외부에서 일어날 수도 있다. 더욱 복잡하게는 한쪽 경계는 뒤집힘이 일어난 내부이고 반대편 경계는 원래의 이중나선일 때이다. 이를 쉽게 파악하기 위해 손으로 그림을 그려보았다. Reference와 query는 a-b-c-d-e-f의 조각이 순서대로 배열된 형태인데, 이 중에서 일부가 떨어져나가서 180도 방향을 바꾼 뒤 다시 연결되는 상태를 가정해 보았다. Reverse complementary 형태가 된 서열 조각의 위에는 bar를 그렸다.


맨 위 왼쪽의 A는 최초의 뒤집힘이 일어난 상태이다. 그 다음에 일어난 뒤집힘이 이전 것의 내부에서 일어나거나 혹은 완벽히 외부에서 일어난다면 아래 왼쪽의 파랑색 네모로 둘러친 것처럼 alignment가 생성될 것이다. 나머지 경우, 즉 복합적으로 두번째 뒤집힘이 일어난다면 오른쪽에 그린 그림(Ia 또는 Ib)와 같이 될 것이다.

Whole genome level에서 두 서열 사이의 관계를 맺는 것, 이를 nucleotide alignment로 확장하는 것, 그리고 이를 시각화하는 것은 모두 별개의 문제이다. 1999년에 최초 버전이 발표된 MUMmer는 아직까지도 이러한 목적의 유전체 분석에서 매우 유용하게 쓰이고 있다. 지금은 존스 홉킨스 대학에서 근무하는 Arthur Delcher에게 감사를!(구글 스칼라 링크)

댓글 없음: