2014년 11월 3일 월요일

일루미나 데이터에서 어댑터 서열을 제거하기 위한 사전 지식

일루미나 paired-end sequencing을 위한 표준 라이브러리(바코드 사용)의 구조는 다음과 같다.
structure
(그림 출처: http://nextgen.mgh.harvard.edu/CustomPrimer.html)

P5와 P7 서열은 워낙 유명하므로 알아두는 것이 좋겠다.

P5: 5' AAT GAT ACG GCG ACC ACC GA 3'
P7: 5' CAA GCA GAA GAC GGC ATA CGA 3'

인서트 좌우의 전체 어댑터 서열을 알아보자. P5와 P7 서열은 파랑색으로 표시하였다. blunt end로 만들어진 insert의 3'-end에는 A가 하나씩 더해지므로, insert와 인접한 어댑터 서열에 외견상 A 혹은 T가 하나씩 더 있는 것처럼 보인다. 
(왼쪽 TruSeq universal adapter) 
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT3´
(오른쪽 TruSeq indexed adapter: P7의 상보적 서열이 3'-end에 보인다.)
5´AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC‐NNNNNN‐ATCTCGTATGCCGTCTTCTGCTTG

양쪽 프라이머 결합 부위와 insert가 바로 인접해 있으므로, 이론상으로는 read 시작 부위에 잡다한 어댑터 서열이 존재하지 않아야 한다. 그러나 라이브러리 제작 시 아무리 insert에 대한 길이 콘트롤을 잘 했다 하더라도 read 길이보다 짧은 insert가 존재할 수 있다. 이러한 경우에는 한쪽 read가 insert를 완전히 관통한 뒤 반대쪽 어댑터 서열까지 이어지게 된다.

이러한 상태로 만들어지는 read는 de novo assembly에서 방해물이 될 수 있다. 따라서 어댑터 서열이 read내에서 확인되면 거기부터 이후를 전부 제거해 버리는 작업이 필요하다. 이를 위해서는 라이브러리에 사용되는 가능한 모든 어댑터의 서열 정보를 미리 알고 있어야 한다는 번거로움이 따른다.

여기서 기억해 둘 점이 하나 있다. 시퀀싱용 프라이머는 부분적으로 12 bp의 상보적인 영역을 갖고 있다. TruSeq DNA sample preparation kit v2를 이용하여 라이브러리를 만들 때 이들이 일부는 상보적인 쌍을 이룬 Y-shape 형태로 공급되게 만들기 위해서이다. 이를 그림으로 좀 더 쉽게 이해하려면 다음 사이트를 방문하라. 복잡한 다단계 PCR을 하지 않고 어떻게 인서트 양쪽에 서로 다른 어댑터가 붙게 하는지를 이해할 수 있다. 여기서 아직 풀리지 않는 의문점이 있다. Y-형태의 어댑터를 쓰지 않으면 양 끝에 같은 종류의 어댑터가 붙는 것을 어떻게 방지할까? flowcell에서 클러스터가 만들어지지 않는다는 것을 이용하는 것일까?

http://onetipperday.blogspot.kr/2013/06/illumina-hiseq2000-adaptor.html
http://www.bio-rad.com/webroot/web/pdf/lsr/literature/Bulletin_6343.pdf


아래에서 색깔로 표시한 부분이 바로 상보적인 서열이다. blunt end로 만들어진 insert의 3'-end에는 A가 하나씩 더해짐을 잊지 말자.

5'----GCTCTTCCGATCT[INSERT---- DNA]AGATCGGAAGAGC----3'

따라서 어느 방향으로 읽든지 (A)GATCGGAAGAGC가 나오기 시작하면 그 이후는 제거하면 된다. 실제로 CLC Genomics Workbench에서 read들을 펼쳐놓고 (A)GATCGGAAGAGC를 검색해 보니 상당히 많은 read가 이를 포함하고 있다.

이번에는 리눅스 커맨드 라인에서 단순하게 grep을 해 보았다. 정확하게 GATCGGAAGAGC 서열을 갖고 있는 read를 찾아보니 총 1583만 read 중에서 1392개이다. 아주 단순한 계산으로 1만분의 1 이하라는 의미이다. 그렇다면 de novo assembly에서 큰 문제가 되지 않을 수준이라는 생각도 든다.

댓글 없음: