가장 바람직한 spacer sequence는 무엇일까? 이것에 대해서 특별히 심각하게 생각해 본 일은 없다. Pseudomolecule이 필요할 때 그저 50~100개 정도의 N을 삽입하여 연결하는 것이 다반사였다. 하지만 컴퓨터를 이용하여 pseudomolecule로부터 gene prediction을 하게 되면 spacer를 내부에 갖는 무의미한 유전자가 예측될 수도 있다.
논문을 읽다가 6개 프레임 전부에서 stop codon을 만나게 되는 36-bp 서열을 spacer sequence로 쓴 사례를 보게 되었다. 대단히 현명하다. 이렇게 pseudomolecule을 만들면 최소한 spacer를 사이에 두고 양 contig를 가로지르는 무의미한 유전자는 나타나지 않을 것이다. 이 방법을 인용한 다른 논문도 최소한 두 편을 확인하였다(아르헨티나 국적의 동일 저자 논문임).
The contig sequences of each strain were concatenated with the sequences NNNNNCACACACTTAATTAATTAAGTGTGTGNNNNN, which puts stop codons in all six reading frames...[출처] Pyrosequencing-based comparative genome analysis of the nosocomial pathogen Enterococcus faecium and identification of a large transferable pathogenicity island. BMC Genomics 2010 11:239 https://doi.org/10.1186/1471-2164-11-239. Pan-genome 개념을 창시한 H. Tettlin이 이 논문의 공저자이다.
하지만 실제로 해당 genome에 존재하지 않는 서열을 spacer sequence로 사용한다는 점이 약간 불편하다. N을 제외한 중간 염기서열(palindromic 26 bp)을 NCBI BLAST site에서 검색해 보았다. DB는 RefSeq Genome으로 택하였다. 이 서열과 100% 동일한 것을 보유한 genome이 54개였고, Cronobacter의 어느 스트레인을 시퀀싱한 것에는 여러 차례 출현한다. 이 서열을 spacer로 사용하여 이어 붙인 pseudomolecule을 NCBI에 등록했을 가능성이 크다. 실제로 하나를 클릭하여 GenBank record에서 match가 일어나 서열을 보니 좌우에 N이 5개씩 존재한다.
대규모의 comparative genomic analysis를 하는 사람은 이것을 기억해 두는 것이 좋겠다.
댓글 없음:
댓글 쓰기