나는 효모의 생물학을 잘 모르기에 매번 이 사이트를 대충 이용한다는 느낌을 갖고 있다. 내 genome이 WGD(whole-genome duplication)을 겪은 것인지 아닌지도 판단하기가 쉽지 않다. 곰팡이, 즉 사상균과 효모(맞나?)의 분류는 아직도 완성된 것이 아니라서 나처럼 균학에 대해 잘 모르는 사람에게는 늘 어려운 과제이다.
YGAP에 contig 서열을 제출하면 annotation 결과를 제공함과 동시에 유전체 서열 파일도 살짝 체제를 바꾸어서 반환한다. 만약 cb01.fa라는 파일을 올리면 cb01.genome.txt이라는 fasta 파일을 돌려주는데, 서열 ID의 형식이 바뀌어서 약간의 혼동을 초래하는 것이다. 오늘은 어떤 규칙에 의하여 바뀌는지를 알아보고자 한다.
YGAP에 올린 서열의 ID는 아주 간단하게 contig_1, contig_2...이다. 그러면 .genome.txt 파일은 어떻게 바뀌었나? 원본 파일의 contig 번호는 다음의 Chr_ 또는 Scaffold_ 뒤의 번호로 자리바꿈을 했을 것으로 보인다. Scaffold_#은 서열 ID의 일부가 아니라 description임에 유의하자.
>cb01_Chr_28 Scaffold_1
>cb01_Chr_35 Scaffold_2
>cb01_Chr_36 Scaffold_3
...
실행 전에 YGAP의 파라미터 중에서 "Do you want to order scaffolds by size [default: Y]"를 기정치 그대로 두었다. 이것이 무엇을 의미하는지 도움말을 찾아보았다. YGAP는 입력 서열의 단위를 전부 scaffold로 간주하는데, 가장 큰 것부터 역순으로 chromosome 1, 2, 3...의 번호를 붙인다고 한다. 또한 염색체 1번에 존재하는 유전자의 이름에는 A가 들어가고 염색체 2번 유래 유전자는 B가 들어가는 식이다. 이 파라미터를 N으로 설정하면 입력 파일에 있는 서열 순서대로 염색체 번호가 붙는다고 하였다. 입력 파일의 contig_#는 결국 .genome.txt 파일에서는 Scaffold_#로 자리를 이동하는 것이다. 입력 파일의 서열번호(scaffold 번호), 새로 부여한 염색체 번호 및 유전자에 붙는 코드(A, B, C...)의 관계는 mapping file에 수록된다.
여기에서 YGAP의 귀여운(?) 버그를 하나 발견하였다. 길이가 같은 scaffold는 chromosome 번호도 같아진다는 것이다. 다음을 보라.
SEQ: cb01_Chr_96 124
SEQ: cb01_Chr_101 121
SEQ: cb01_Chr_101 121
SEQ: cb01_Chr_101 121
SEQ: cb01_Chr_101 121
SEQ: cb01_Chr_101 121
어차피 길이가 200 bp에 미치지 못해서 NCBI의 WGS에 올리지도 못하고, 단백질 코딩 유전자를 이로부터 찾기도 어렵다.
그래도 다행스러운 것은 YGAP가 만들어내는 GenBank file은 scaffold에 따라서 작성된다는 것이다. 만약 새로 부여받은 chromosome 번호만을 이용하여 결과 파일이 만들어진다면 상당히 혼란스러웠을 것이다.
댓글 없음:
댓글 쓰기