2017년 1월 27일 금요일

Blast2GO (Pro) 4.x 버전 익히기

Blast2GO의 매뉴얼을 인쇄해서 읽어본 것이 버전 2.5였을 당시인데 최신 버전은 벌써 4.0.7에 이르고 있다. 그동안 얼마나 많은 기능 향상이 있었을까? 내가 사용하는 것은 유료 버전인 Blast2GO PRO이다. PRO는 blast 검색을 훨씬 빠른 속도로 할 수 있고, 다양한 분석 기능을 내장하고 있다. 심지어 prokaryote 및 eukaryote의 gene finding까지 가능해졌으니 이제는 유전자 서열(혹은 번역된 단백질 서열)을 대상으로 하는 단순한 functional annotation tool의 범위를 한참 넘어서고 말았다. 게다가 NCBI GenBnak submission까지도 해 준단 말인가?

여러 기능이 추가되었다 해도 blast2GO의 기본 기능은 다음의 다섯 가지 단계로 이루어진다는 사실에는 변함이 없다.

  1. BLASTing: 별다른 설명이 필요하지 않다. 검색이 끝난 서열은 주황색으로 바뀐다. 매치하지 않은 서열은 빨강색으로 표시된다(Description은 ---NA---가 된다).
  2. Mapping: blast hit에 부가된 GO term을 추출. Mapping이 끝난 서열은 녹색으로 바뀐다.
  3. Annotation: mapping step에서 가져온 GO pool로부터 GO term을 추출하여 query sequence에 할당하는 것. 신뢰성을 높이기 위해서 규칙을 활용한다. EC 번호는 이 단계에서 붙여진다. 추가적으로 InterPro 검색을 하였다면 Merge InterProScan GOs to Annotation을 실행해서 이미 존재하는 기존의  annotation을 개선할 수 있으니 이를 실행하기를 권장한다. Annotation이 끝난 서열은 파랑색으로 바뀐다.
  4. Statistical analysis: 두 세트의 유전자가 갖는 GO term 빈도의 차이를 통계적 방법으로 분석하는 기능이다. Analysis->Enrichement Analysis->Fisher's Exact Test를 택하면 유전자 ID를 수록한 .txt 파일을 선택하는 대화 상자가 뜰 것이다. 이미 로드된 프로젝트의 서열 전체를 reference set으로 쓴다면 test set만 설정하면 된다.
  5. Visualization
자주 활용을 해야 이 프로그램의 체계에 익숙해질 것임은 자명한데 안타깝게도 아직 그러한 수준에는 이르지 못하였다. 예를 들자면 .b2g와 .dat 파일은 무엇이 다른가? 
  • File->Recent Files를 선택하면 최근에 사용한 .b2g와 .dat 파일이 전부 나타난다. 
  • File->Open File (.b2g)를 선택하면 .b2g 파일만 열 수 있다.
  • File->Load->Load Project (.dat)를 선택하면 .dat 파일을 열 수 있다.
  • 시퀀스를 로드(예: File->Load->Load Example Sequences)한 뒤 오른쪽 위의 [X]를 클릭하면 .b2g 파일에 저장하겠느냐고 묻는 대화 상자가 나타난다.
  • File->Save(or Save As...)를 선택하면 .b2g 파일로 저장한다는 대화 상자가 나타난다. 이때 주의할 점은 어느 창이 활성화되어 있느냐는 것이다. 시퀀스 테이블이 활성화 된 상태와 Blast Result가 활성화된 상태에서 Save(or Save As)를 선택하면 저장되는 내용이 각각 달라진다.
.dat 파일은 '프로젝트 파일'임이 자명하다. 그러면 .b2g 파일의 정확한 용도는 무엇인가? 또 Load와 Open의 차이는 무엇인가? 분명한 것은 분석의 출발점이 되는 query sequence는 오직 Load의 대상이라는 점이다. 그리고 모든 데이터(chart, graph, RFAM 결과, KEGG 결과, ID-list 등)를 .b2g 파일로 저장하는 것은 Blast2GO PRO에서는 가능하지만 BASIC 버전에서는 안된다.

기타 유용한 기능


위 그림처럼 서열 테이블에서 마우스 오른쪽 버튼을 무르면 single sequence menu 창이 뜬다. 지정된 .query sequence에 대한 다양한 분석 결과를 선택하여 오른쪽 하단의 result tab에서 볼 수 있다.

테스트 결과 KEGG pathway map data는 sequence table에서 같이 다루어지지는 않는 것으로 보인다. 이를 텍스트 파일로 저장하려면 별도의 메뉴인 File->Export->Export KEGG Data를 선택하여 실행한다. 결과 파일의 컬럼 구성은 Pathway, Seqs in Pathway, Enzyme, Enzyme ID(=EC number), Seqs of Enzyme, Seqs, 그리고 Pathway ID이다. 컬러가 입혀진 pathway map 그림(.png)을 저장하려면 오른쪽 하단의 툴바에서 Save Map 또는 Save All Maps를 선택한다(아래 그림 참조).


Blast2GO에서 만들어진 프로젝트 파일은 CLC Genomics Workbench의 Blast2GO Viewer 플러그인을 통해서 볼 수 있다고 한다.

댓글 없음: