2017년 12월 12일 화요일

Pseudomolecule을 만들 때 사용할 space sequence

Pseudomolecule 혹은 pseudo-molecule이란 contig sequence의 사이에 적당한 spacer sequence를 넣어서 이어 붙인(concatenation) 염기서열을 말한다. 말하자면 가상의 염색체에 해당하는 염기서열인 셈이다. Contig들의 연결 순서는 reference sequence와 비교했거나 혹은 pair end sequencing read의 alignment를 이용하여 사실에 가깝게 결정해 놓은 다음 연결하는 것이 가장 바람직할 것이다. Spacer의 길이는 실제 sequence gap을 반영하도록 설계하면 더 좋을 것이다. 그러나 항상 이러한 행운이 따르는 것은 아니라서, 연결 정보가 마련되지 않은 contig 서열을 그냥 이어 붙이는 경우도 종종 있다. Contig의 순서는 어떻게 할 것인가? 특별히 따라야 할 규칙은 없지만 가장 긴 서열을 앞에 오도록 정렬한 다음 붙이기도 한다.

가장 바람직한 spacer sequence는 무엇일까? 이것에 대해서 특별히 심각하게 생각해 본 일은 없다. Pseudomolecule이 필요할 때 그저 50~100개 정도의 N을 삽입하여 연결하는 것이 다반사였다. 하지만 컴퓨터를 이용하여 pseudomolecule로부터 gene prediction을 하게 되면 spacer를 내부에 갖는 무의미한 유전자가 예측될 수도 있다.

논문을 읽다가 6개 프레임 전부에서 stop codon을 만나게 되는 36-bp 서열을 spacer sequence로 쓴 사례를 보게 되었다. 대단히 현명하다. 이렇게 pseudomolecule을 만들면 최소한 spacer를 사이에 두고 양 contig를 가로지르는 무의미한 유전자는 나타나지 않을 것이다. 이 방법을 인용한 다른 논문도 최소한 두 편을 확인하였다(아르헨티나 국적의 동일 저자 논문임).
The contig sequences of each strain were concatenated with the sequences NNNNNCACACACTTAATTAATTAAGTGTGTGNNNNN, which puts stop codons in all six reading frames...
[출처] Pyrosequencing-based comparative genome analysis of the nosocomial pathogen Enterococcus faecium and identification of a large transferable pathogenicity island. BMC Genomics 2010 11:239 https://doi.org/10.1186/1471-2164-11-239. Pan-genome 개념을 창시한 H. Tettlin이 이 논문의 공저자이다.

하지만 실제로 해당 genome에 존재하지 않는 서열을 spacer sequence로 사용한다는 점이 약간 불편하다. N을 제외한 중간 염기서열(palindromic 26 bp)을 NCBI BLAST site에서 검색해 보았다. DB는 RefSeq Genome으로 택하였다. 이 서열과 100% 동일한 것을 보유한 genome이 54개였고, Cronobacter의 어느 스트레인을 시퀀싱한 것에는 여러 차례 출현한다. 이 서열을 spacer로 사용하여 이어 붙인 pseudomolecule을 NCBI에 등록했을 가능성이 크다. 실제로 하나를 클릭하여 GenBank record에서 match가 일어나 서열을 보니 좌우에 N이 5개씩 존재한다.

대규모의 comparative genomic analysis를 하는 사람은 이것을 기억해 두는 것이 좋겠다.

댓글 없음: