2013년 8월 7일 수요일

Mauve alignment에서 LCB coordinate 추출하기

Mauve를 이용하여 예쁜 그림을 그렸다.


이 그림에서 알록달록한 색으로 나타난 두꺼운 선을 LCB(locally colinear block)이라 부른다. Genome rearrangement가 일어나지 않은 보존된 block이라고 생각하면 된다.

LCB = synteny block인가? 이것은 조금 생각해 볼 여지가 있다. LCB는 rearrangement-free 영역인 것이지, 그 영역 내부 전체에 대해서 비교 대상 genome에서도 그대로 conservation된 것은 아니다.

자, 이제 LCB의 좌표를 추출하여 다른 용도로 사용해 보자. 메뉴를 뒤적거려 보는데, 그런 기능이 없다! 이게 도대체 어찌된 일인가? LCB coordinate file에 대한 설명은 온라인 도움말에 있는데, 정작 프로그램 내에는 이를 export하는 기능이 없다니?

웹 검색을 조금 해 보았다. Mauve 정식 패키지에 포함되어 있지 않은 다음의 두 프로그램(다운로드는 여기에서; All other programs를 클릭할 것)이 필요하다는 것이다. 이러한 설명은 Mauve user 메일링리스트에서 발견하였다. 관련 글은 여기에 있다. 아니, 이렇게 중요한 정보를 왜 홈페이지에 싣지 않고 기껏 사용자 메일링 리스트에 오른 질문에 대한 답으로 처리한다는 것인가?

(1) projectAndStrp
(2) makeBadgerMatrix

3개 genome sequence를 가지고 Mauve를 실행하여 results.xmfa라는 결과 파일을 얻었다고 하자. 이것은 GUI 환경에서 하거나 또는 command line에서 progressiveMauve를 실행하면 된다고 한다. 나의 경우에는 progressiveMauve를 실행하니 core dump가 되고 말았다. 이유는 잘 모르겠다. GUI에서 만든 결과 파일이 있으니 일단 패스.

$ projectAndStrip results.xmfa test.xmfa 0 1 2
$ makeBadgerMatrix test.xmfa test.perms test.lcbs
$ cat test.lcbs
seq0_leftend seq0_rightend seq1_leftend seq1_rightend seq2_leftend seq2_rightend
190 2704 190 3098 64542 67525
3465 8437 3514 8955 -71101 -77726
...

이상과 같이 command line 명령어 두 개로 LCB coordinate가 생겼다. 이번 분석에서는 25개의 LCB가 검출되었다. 

휴! genoPlotR로 마무리 그림 그리기!

댓글 없음: