2024년 11월 27일 수요일

ANI 업계의 최근 소식을 알아보자 - 종내(intra-species) 존재하는 불연속성

ANI(Average Nucleotide Identity)를 이용하여 원핵생물의 균주를 묶거나 가르는 "업계"의 최신 근황이 궁금해졌다. Cutoff value에 대한 다른 주장이 나오거나, ANI를 뛰어넘는 다른 개념이 나온 것은 아닐까?

2023년 mBio에 실린 논문 An ANI gap within bacterial species that advances the definition of intra-species units에서는 330개 박테리아 종에서 18,123개의 complete isolate genome(MGA, getagenome-assembled genome이 아니란 뜻이렷다)을 분석한 결과 대부분의 종에서 99.2%~99.8%(midpoint: 99.5%) 사이에 ANI 값의 불연속성이 존재함을 발견하였다고 한다. 이 값은 감염병의 유전체 역학에서 널리 쓰이는 sequence type(ST)와 대략 일치하며, strain(균주)만큼 상세한 것은 아니라고 하였다. 이 gap이 subspecies와 연관을 지을 수 있는지에 대해서는 논하지 아니하였다. Strain의 경계는 더욱 엄밀한 수준인 >99.99% ANI로 제안되는 것이 일반적이다. 이러한 종내 99.5% ANI gap이 어떻게 생겨나는지 그 원인에 대해서는 아직 모른다. 논문을 상세하게 읽은 것은 아니라서 나의 해석이 정확하지 않을 수도 있다.

내가 이러한 연구를 재현해 보려면 유전체 정보를 어떻게 다운로드할까? ncbi-genome-download 유틸리티가 아직도 유효한 것일까? NCBI 웹사이트에 가 보니 datasets와 dataformat이라는 새로운 명령행 유틸리티가 생겼다(링크). 이건 또 뭔가? 



NCBI Insights에 들어가 보면 2024년 8월 13일에 이런 글이 게시되어 있었다.

Access and Download Sequence Data and Metadata Using NCBI Datasets

Goodbye Assembly and Genome, hello NCBI Datasets!

Datasets은 NCBI에서 관련성 있는(정확히 말하자면 사용자의 검색용 질의어에 맞는) 데이터 묶음을 웹 인터페이스에서 보여주고 제공하는 새로운 체계라고 막연히 생각해 왔었다. 위 글에는 'As previously announced, NCBI Datasets is replacing the legacy Genome and Assembly resources providing you a single entry point to genome datasets. Effective today, the legacy pages are redirected and no longer available.'이라고 하였으니 내 짐작이 아주 틀린 것은 아니었다. 밑줄친 'previously announced'에 해당하는 공지의 원문 링크는 New & Improved NCBI Datasets Genome and Assembly Pages(2023년 7월 11일)이다. 이는 원래 진핵생명체를 위해 만들어진 NIH Comparative Genomics Research (CGR) project의 일부라고 한다. 내가 모르는 사이에 정말 많은 변화가 있었다.

2024년 11월 공개된 RefSeq release 227에 대한 NCBI Insights의 안내문을 보면, NCBI Datasets을 통해서 다운로드할 수 있다고 되어 있다. 이 웹페이지를 들어갔다가 datasets 및 dataformat으로 연결되는 링크를 발견하게 된 것이다. Entrez나 E-Direct가 퇴출된 것은 아니겠지만, 새 시대에 맞게 새롭게 제공되는 서비스에 익숙해질 필요가 있다. Bacterial genome을 검색하여 찾아 들어가는 관문도 예전과는 매우 다른 모습으로 바뀌었다.

2024년 또 다른 ASM 저널인 mSystems에 실린 On the road to genomically defining bacterial intra-species units[1]를 살펴보았다. 이 글은 연구논문은 아니고 'commentary(논평)'이다. 제목만 보면 2018년 같은 저널에 실렸던 Nicola Segata의 논문(이 아니고 perspective, 즉 견해인가?) On the road to strain-resolved comparative metagenomics[2]의 오마주인 것 같다. Segata는 MethPhlAn, bioBakery 등으로 워낙 유명하니 말해서 무엇하랴.

[1]에서는 최근 ANI 분석을 통해 확인되는 종내 세부 단위의 의미와 이에 따른 병원체의 genome epidemiology 발전 방향에 대해서 다루고 있다. 이 글이 인용한 참고문헌을 세세하게 살펴보는 것이 좋겠다. 예를 들어 이제는 고전이 된 ANI의 개념을 정립했던 Konstantinidis의 2023년 논문 Sequence-discrete species for prokaryotes and other microbes: a historical perspective and pending issues[3]를 인용했으니 말이다. [3]의 그림 1을 보면 이 논문이 무엇을 말하려는지 쉽게 이해할 수 있다.

The average nucleotide identity (ANI) gaps at the species and subspecies levels.  9만 개의 complete genome를 fastANI로 짝(pairwise) 비교하여 얻은 결과이다. 출처 링크.


내가 대부분의 시간 동안 몸을 담았던 업계의 현황을 살펴볼 여유가 요즘 별로 없는데 그러는 사이 그 분에서는 계속 뭔가가 진행되고 있었다. 당연한 이야기이겠지만... 그 전문 분야를 느릿느릿 뒤따라 가면서 마치 사오년전 크게 히트했던 영화를 넷플릭스나 쿠팡 플레이에서 다시 찾아 보는 느낌이 든다.

댓글 없음: