2013년 1월 29일 화요일

de novo assembly의 지표 - N50과 L50

de novo assembly의 결과 수치 중에서 연구자가 가장 민감하게 받아들이는 것은 바로 contig들의 숫자와 길이에 관한 것이다. contig의 수는 매우 명백하게 받아들일 수 있다(물론 길이에 대해서 cutoff를 적용할 수는 있다). 그런데 '길이'는 조금 다르다.

물론 total length도 중요하다 :) 이 값은 read가 추가될수록 유전체의 크기에 근접하는 것이 당연하다. 요즘은 거대 genome을 시퀀싱하는 경우가 아니라면 한번에 목표한 수량 이상의 데이터가 생산되므로, 일 또는 주 단위로 생산된 데이터를 추가하여 합체한 뒤 이상한 행태를 보이지 않는지 추적할 필요가 없어져 버렸다.

contig의 평균 길이는 계산하기도 쉽고 이해하기도 쉽다. 하지만 짧은 contig가 유난히 많거나, 혹은 gap closing이 꾸준히 진행되어서 큰 contig가 많다면 단순히 산술적으로 계산한 평균 길이는 편향된 값을 나타내기 쉽다. 그래서 고안된 수치가 바로 N50 statistic이다.

N50을 계산하는 방법은 별로 어렵지 않다.

(1) 서열들을 크기 순으로 오름차순 정렬을 한다. 어느 contig를 시발점으로 하여 큰 contig들의 길이를 전부 더했을 때, total length의 50%와 같거나 넘는 순간 바로 그 contig의 길이를 N50이라 정의하였다. Broad Institute의 정의를 따르자면 weighted median 정도가 될 것이다.

N50은 평균 길이와는 달리 매우 현실적인 숫자이다. 1 kb와 11 kb의 서열이 하나씩 있을 때, 평균 길이는 6 kb가 된다. 그러나 우리의 서열 모음에는 6 kb짜리 서열은 없다. 이에 반하여 N50은 서열 모음 내에 있는 특정 서열의 길이가 된다(여기에는 약간 다른 의견이 있기도 하다).

그런데 최근에는 N50을 다른 의미로 쓰는 문헌이 보이기 시작한다. N50을 '전체 길이의 합 50%를 초과하게 만드는 서열의 수'로, 그리고 고전적인 N50을 대신하여 L50이라는 용어를 쓰는 것이다. 아마도 N은 숫자, L은 길이라고 생각을 해서 그런 것으로 보인다.

Broad Institute에서 제시한 N50의 아주 기본적인 정의에 대해서 다시 알아보자.

(2) Given a set of sequences of varying lengths, the N50 length is defined as the length N for which 50% of all bases in the sequences are in a sequence of length L < N.

잠깐, 이것은 (1)과는 계산 방향이 반대 아닌가. N50보다 작은 contig의 합이 전체의 50%라는 말이다. 실용적으로는 별 상관이 없다. 단, N25나 N75처럼 50%가 아닌 숫자에 대해서 논할 때에는 합산의 방향이 문제가 된다.

다음은 E. Lander의 논문에 의한 정의이다. 이는 (1)과 별반 다르지 않다.


More exactly, the N50 length is defined such that half of the nucleotides reside in contigs or scaffolds having a length of at least N50 length.





댓글 1개:

jihee han :

박사님~ 지희예요~ n50 값에 따라서 sequence quality를 알 수 있다구 해서 검색했었음당~ ㅎㅎ 그런뎅 박사님 블로그네요~ 어찌나 반가운지~