2017년 6월 20일 화요일

Oxford Nanopore sequencing, 기껏 조립을 했더니 박테리오파지 람다였다

어제 세 번째의 ONT(Oxford Nanopore Technologies) 시퀀싱을 실시하였다. 최초의 두 번은 lambda control DNA에 대한 것이었고 이번에는 실제 세균 유전체 DNA를 가지고 만든 라이브러리였(다고 믿었)다. 어제 오후 3시쯤에 러닝을 시작하였으니 48시간의 표준 러닝을 마치려면 하루를 더 기다려야 한다.

MinKNOW 실행 화면을 보면 실제로 DNA가 통과하는 구멍, 즉 'strand'로 표시되는 nanopore의 수가 그렇게 많지 않다. 특히 하루를 넘어가면서 얻어지는 read의 수가 줄어드는 것이 확연히 드러났다. 48시간 러닝에 대한 전형적인 read의 수 혹은 염기쌍의 수는 얼마라고 이야기하는 것이 가능할까? 초창기에 나온 어떤 논문에서는 매 4시간마다 라이브러리를 리필하라는 말까지 있지만 ONT community에서 아직 이와 관련한 정보를 찾지는 아니하였다.

러닝 수 22시간쯤이 경과했을 때, fast5 파일을 다른 위치에 복사하여 base calling을 한 뒤 reference mapping을 실시하였다. 이 샘플은 예전에 일루미나로 시퀀싱을 한 적이 있어서 200개 수준의 contig 서열을 확보한 상태이다. 플라스미드와 트랜스포존 등이 많아서 contig의 수가 불가피하게 많다.

 Mapping 및 QC는 NanoOK를 사용하였다. PDF report를 열어보니 성적이 너무 나쁘다. 어떻게 된 것일까? 내가 알고 있는 세균의 유전체 염기서열이 맞나? 2 kb짜리 read를 아무거나 하나 선택하여 NCBI에서 BLASTN을 해 보았다. 결과는 전혀 예상하지 못한 것이었다. 박테리오파지 람다의 유전체 서열이 나오는 것 아닌가?  Percent identity는 93% 수준이었다.

De novo assembly를 하면 정확한 진단이 될 것 같았다. Canu를 사용하여 조립을 하니 약 47 kb 크기의 contig가 떡하니 나왔다. 같이 만들어진 3 kb 짜리 contig는 depth도 낮고 서열 자체도 GTT의 반복이라서 의미 없는 서열로 판단된다.

이번에는 람다 DNA 서열을 reference로 하여 다시 NanoOK을 실행해 보았다.  Reference  전체가 depth > 30 수준으로 잘 매핑되었다. 아마도 라이브러리를 만든 연구원이 실제 세균 샘플 DNA와 람다 콘트롤 DNA를 혼동하여 서로 바꾸어서 실험을 한 것 같다.

어떻게 해야 하나의 flowcell에서 러닝을 하여 좀 더 많은 read를 얻을 수 있을까? ONT community에 잠복하여 다른 사용자들이 올린 글과 답변을 전부 읽어봐야 되겠다.

댓글 없음: