2017년 9월 15일 금요일

Gene map 혹은 genome map 그리기

예전에는 미생물 유전체 해독 연구 논문에 원형으로 멋지게 그린 유전체 지도를 그림으로 싣는 일이 많았다. 따지고 보면 이러한 그림 자체가 제공하는 정보는 그다지 많지가 않다. 각 strand에 따른 유전자 분포, %GC 및 GC skew 등의 global characteristic을 제외하면 말이다. 그렇다고 해서 모든 유전자의 명칭이나 기능 정보를 달아버리면 어떻게 될까? 다음 그림처럼 말이다. 이런 유형의 그림을 그리려면 절제의 미덕이 필요하며, 핵심적인 메시지만을 전달하려는 노력이 있어야 한다. 과거에 이런 그림을 논문에 실었던 것은 "이렇게 멋지고 수고스러운 일을 우리가 해냈다!"라고 자랑하려는 의도가 더 크지 않았었나 싶다.


이 그림은 잘 알려진 circular genome viewer인 CGView로 그린 예제이다. Interactive genome viewer로 더욱 발전된 프로그램인 GView도 있다. 위 그림에서는 너무 많은 정보를 담고 있어서 오히려 가치가 떨어지지만, CGView의 매우 중요한 특징 하나를 보여주고 있다. 즉 아무리 많은 라벨을 달아도 서로 겹치지 않게 알아서 잘 배치한다는 것이다.

엽록체나 미토콘드리아와 같은 세포소기관의 유전체 지도를 그리는 것은 아직도 꽤 중요하다. 왜냐하면 식물의 진화를 연구하는데 아직도 중요한 재료일뿐만 아니라 그림 하나로 표현해도 무리가 없을 정도의 정보량을 갖고 있기 떄문이다. 요즘 논문 작업을 하면서 감염성 세균의 항생제 내성 플라스미드의 유전체 지도를 그릴 일이 생겼다. CGView를 쓸까 하다가 customization을 하기가 성가셔서 다른 도구를 찾아보았다. 2008년에 논문으로 공개된 GenomeVx가 꽤 쓸만하다는 것을 알게 되었다. 흥미롭게도 이 도구는 아일랜드에 위치한 더블린 대학의 Ken Wolfe 연구실에서 개발한 것이다. Wolfe는 효모 유전체의 전문가로서 Yeast Gene Order Browser(YGOB)를 개발한 사람이기도 하다. 효모 유전체의 진화에서 내가 생각하는 가장 큰 매력적인 이벤트는 바로 whole-genome duplication(WGD)인데, Wolfe가 바로 이 분야의 전문가이다. 1997년에 Nature에 실렸던 논문 "Molecular evidence for an ancient duplication of the entire yeast genome"의 제1저자가 바로 Wolfe이다. 좀 오래된 논문이지만 이 주제에 흥미가 있다면 Yeast genome evolution - the origin of species(Yeast 2017; PDF)를 읽어보자.

GenomVx로 그림을 그려냈으나 몇 가지 문제점이 보인다. label이 없으면 유전자가 아예 그려지지 않는다는 것, 그리고 label이 서로 겹치는 문제는 해결이 안된다는 것이다. 그리고 설명과는 달리 '-'는 사라지고 만다. GenomeVx 논문의 초록 마지막에는 아예 이런 글귀가 나온다.

Output is in the Adobe Portable Document Format (PDF) and can be edited by programs such as Adobe Illustrator.

나한테는 Illustrator가 없지만, ImageMagic으로 테스트를 해 보니 편집이 가능한 것으로 보인다.  장기적으로는 GView나 Circos를 익혀서 쓰는 것이 바람직할 것이다. 공교롭게도 GView와 Circos 모두 캐나다에서 개발된 것이다. CGView 패밀리 프로그램(CGView, CCT, 및 GView) 전체에 대한 논문은 Briefings in Bioinformatics 20017년 논문을 참고하라. 간단하게 그림을 그리고 싶다면 Circleator도 좋다.

다음으로는 genome segment를 서로 비교한 그림을 표현하는 방법을 알아보자. 유전자가 몇 개 포함되지 않는 짧은 영역에 대한 것이라면 파워포인트로 거리와 크기에 대한 비례를 무시하고('not drawn to scale'이라고 변명하면 되니까) 그리면 되지만, 그릴 영역이 20 kb쯤 되면 여간 골치아픈 것이 아니다. 파워포인트의 가장 큰 단점은 전체적인 맥락에서 그림을 바꾸는 것이 불가능하다는 것이다. 예들 들어 어떤 거대 플라스미드의 120-150 kb 영역을 그리기로 했다가 마음이 바뀌어서 뒷쪽으로 10 kb만 더 포함시키기로 했다면? 그야말로 '멘붕'에 직면하는 것이다.

이번에 논문 작업을 하면서 크기가 100~300 kb에 이르는 항생제 내성 플라스미드 3 개의 특정 영역을 서로 비교하는 그림을 그리게 되었다. 2014년에 클로렐라 색소체 및 미토콘드리아 유전체 논문(링크; 그림 2)에 포함된 그림을 그리면서 genoPlotR 패키지를 썼던 일이 떠올랐다.

'사용법은 다 잊어버렸는데, 이것을 다시 익혀서 그려야 하나?'

다시 설명서를 탐독해 가면서 하루를 꼬박 투자하였다. 입력물은 GenBank 파일 3 개이지만, 그것이 전부가 아니다. 유전자의 성격에 맞추어 색을 입히고, 그림에 나타낼 라벨을 결정하는 일(Resfinder 분석 결과가 큰 힘이 되었다)은 사실상 수작업이었다. GenBank 파일을 genoPlotR에서 불러들인 뒤 테이블 형태로 출력하여 엑셀에서 편집을 한 뒤, 특정 컬럼을 복사하여 별도의 텍스트 파일로 저장하여 다시 R에서 data = scan(file="name.txt", what="character")로 입력하여 기존의 dna_seg 및 annotation 오브젝트의 특정 변수에 치환하는 지난한 작업을 거쳐서 최종 결과물을 만들어 내었다.


논문 작성에 참여하는 것은 우연히 이루어진 결정이지만, 이를 위해서 상당히 고급 수준의 지식을 얻게 되는 일이 많다. 성가시다 생각하지 말고 늘 참여하도록 애쓰자.


댓글 없음: