어떤 연구자 그룹에서 발표한 성과물이 어떤 시간 순서대로 나왔는지 알고 싶어서 ChatGPT에게 질문을 던졌다. PubMed에서 조금만 검색을 해 보면 될 일이지만, 어차피 유료로 사용하는 ChatGPT를 이런 목적으로라도 써야 하지 않겠는가. 질문은 다음과 같았다.
UCSD의 Jonathan A. Eisen이 PhyloSift와 AMPHORA, AMPHORA 2를 언제 논문으로 발표했는지 알려줘. 논문 URL도 같이 보여줘.
참고로 amphora는 고대 그리스와 로마 시대에 널리 쓰이던 길쭉한 항아리로, 두 개의 손잡이가 달렸다(위키피디아).
뉴욕 메트로폴리탄 박물관('The MET') 소장품인 Terracotta Nolan amphora(링크). 이 박물관의 소장품 사진 대부분은 자유롭게 복사, 변형, 재배포가 가능하다. 심지어 상업적 용도라 하더라도! |
조금 기다리고 있으면 최종 답변이 나올 것으로 기대하였다. 그런데 화면에서는 현재 ChatGPT가 어떤 궁리를 하면서 내가 던진 질문에 대한 답변을 준비하는지를 보여주기 시작하였다. 내가 제출한 질문을 먼저 확인하고, 정보를 찾은 뒤, 나름대로 논리적 전개를 하여 종합한 다음 마지막으로 점검하는 과정까지 친절하게 보여주는 것이었다. 예전보다는 분명히 더욱 영리해졌다. 작업 화면을 녹화하여 동영상을 만들어 보았다. 중간에 기다리는 시간이 있어서 약간 지루하게 느껴질 수도 있겠다.
이 동영상의 초기 버전을 내 유튜브 채널에 올렸다가 다시 내렸다. 정보량이 그렇게 많은 유용한 동영상은 아니라는 생각이 들었기 때문이다. ChatGPT의 최종 답변은 다음과 같았다. 위에서 보여준 중간 처리 과정과 관련한 메시지는 사라지지 않았다. 다음의 답변 맨 위에 나오는 '1m 44s 동안 이성 처리 완료'를 ChatGPT내에서 클릭하면 '이성 처리의 과정'이 다시 화면에 펼쳐져 나온다. 물론 이 블로그에서는 클릭을 해 봐야 소용이 없다.
이와 같이 Eisen 교수 연구실에서는 2009년(AMPHORA)과 2013년(PhyloSift 및 AMPHORA2)에 관련 논문을 발표하였습니다.
이 정도로 정보를 처리할 정도라면, 한 사람의 생애를 정리하여 전기나 연대기를 만드는 것도 어렵지 않아 보인다. '이성 처리'는 rational processing 또는 logical reasoning을 의미하는 것으로 보인다.
오늘 Eisen의 논문을 다시 찾아보게 된 것은 오랜만에 약 160건의 미생물 유전체를 아우르는 phylogenetic tree를 그리기 위함이었다. 5년쯤 전까지만 해도 PhyloSift를 종종 사용하였었는데, marker gene set 다운로드 링크가 더 이상 유효하지 않다. 전에 사용하던 낡은 서버에서 프로그램을 되살릴 수는 있었지만, 보다 최신의 연구 동향 및 도구가 궁금하던 차에 다른 논문을 뒤져보다가 서론 부분에서 Eisen 그룹의 연구 내용이 소개되어서 반가운 마음에 ChatGPT 신세를 좀 져 본 것이었다.
오늘 찾아본 두 편의 논문은 다음과 같다.
A revisit to universal single-copy genes in bacterial genomes - Scientific Reports 2022.
VBCG: 20 validated bacterial core genes for phylogenomic analysis with high fidelity and resolution - BMC Microbiome 2023.
첫 번째 논문은 잘 알려진 일곱 가지의 universal single-copy gene(USCG)를 평가한 것이다. 따라서 새로운 마커 유전자를 제시하거나 여러 유전체 염기서열로부터 이를 찾아내는 파이프라인을 제시하지는 않았다. 두 번째 논문(VBCG)에서 GitHub에 공개한 응용프로그램(링크)이 매우 유용해 보인다.
두 논문의 서론 부분만 제대로 읽어도 이 분야의 연구 동향을 알아내기에 충분하다. 물론 세상에는 더 많은 마커 유전자 세트가 존재한다. 아직 두 논문을 철저하게 소화한 것은 아니지만, proGenomes database(v3 링크)에서 사용한 40개의 universal, single-copy phylogenetic marker gene("specI", Nature Methods 2013)을 언급한 것 같지는 않다. proGenomes와 specI는 Peer Bork이 이끄는 EMBL-Heidelberg에서 주도한 것으로 알고 있다. specI는 2017년에 내 블로그에서 조금 다루었었다(쉽게 쓴 원핵생물의 종 동정 이야기). proGenome v2에서 사용한 classifier는 GitHub에서 공개하고 있다(링크). phyloSift에 대한 글은 내 블로그에서 꽤 많이 작성해 놓았기에 여기에 전부 링크를 달 수는 없다. 한국에서 개발한 UBCG(up-to-date bacterial core gene set, v2)를 빼놓으면 섭섭할 것 같다.
시대가 변했으니 나도 좀 더 편리한 도구인 VBCG로 옮겨갈 때가 되었다고 본다. 실제로 설치 후 활용해 보니 매우 빠르다. 이따금 ezTree를 사용할 때도 있다. 이 프로그램은 정해진 적은 수의 marker gene set을 쓰는 것이 아니고 PFAM HMM library에 대해 query genome을 다 뒤진 뒤 공통적인 것만 걸러내는 스타일이라서 시간이 많이 걸린다.
올해 들어서 열 번 가까이 실행하고 있는 GTDB-Tk에서도 universal marker gene을 사용한다(설명 링크). 갑자기 공부할 것이 많아졌다!
댓글 없음:
댓글 쓰기