2024년 5월 16일 목요일

Paenibacillus polymyxa E681 유전체 프로젝트의 20년 묵은 데이터를 꺼내 먼지를 털다

K-BDS에서 게놈 고물상 영업을 본격적으로 시작한 지 한 달 정도가 지났다. 사실 이 일을 위하여 개발자 또는 관리자가 별도의 인터페이스를 만들어 주는 수고를 한 것은 아니다. 단지 고물상에 입고할 목적으로 낡은 물건(데이터)을 정리하여 새로운 기타 타입 데이터로 K-BDS에 차곡차곡 등록을 할 뿐이다. 창고를 뒤져서 낡은 물건을 꺼내어 먼지를 털고 작동이 되는지 확인한 다음 사용 설명서를 붙이는 일 정도라고 여기면 된다.

나는 BioProject 정보를 잘 쓰는데 특히 많은 공을 들이고 있다. 내가 다루는 거의 대부분의 자료는 미생물(prokaryote)의 유전체 해독과 관련한 것이다. 따라서 연구 대상 미생물이 어떤 학술적인 의미가 있는지, 이로부터 파생된 논문이나 특허 등 성과는 무엇인지 등을 짧은 텍스트에 담으려고 애를 쓴다. 요즘은 Paenibacillus polymyxa E681의 유전체 해독물, 즉 8만개가 넘는 Sanger sequencing chromatogram과 이를 이용한 조립 결과 - 단순한 contig가 아니라 Phred/Phrap/Consed  파이프라인을 이용하여 작업한 모든 중간 결과물 - 를 K-BDS에 제출하기 위해서 열심히 작업을 하는 중이다. 이 미생물의 유전체 프로젝트를 수행하느라 만든 원본 크로마토그램은 CD-ROM으로 구운 뒤 전부 버렸다고 생각했는데, 정말 다행스럽게도 따로 떼어 놓은 하드디스크드라이브에 거의 대부분의 파일이 남아 있었다. E681의 연구 역사는 다음의 2019년 리뷰 논문을 쓰면서 잘 정리해 놓았다. 

Chronicle of a soil bacterium: Paenibacillus polymyxa E681 as a tiny guardian of plant and human health (Front. Microbiol.)

내가 (주)제노텍에 근무하다가 한국생명공학연구원에 2003년 1월 입사하는 전환기에 걸쳐서 이 균주의 유전체를 해독하는데 많은 정성을 쏟았다. 예를 들어 fosmid library의 end sequencing 결과로 만든 복잡한 스캐폴드를 Consed에서 손으로 정리하여 다음과 같은 형태를 만든 일이 있다. 이 그림 역시 하드디스크드라이브에서 발견한 것이다. 요즘은 누구도 이런 식의 수작업을 하지 않겠지만.




2002년쯤에 생산된 크로마토그램을 요즘 다시 정리하면서 이름이 중복된 것을 확인하느라 아주 애를 먹었다. 예를 들어 10개 디렉토리에 100개의 크로마토그램이 나뉘어 저장되어 있는데, 이를 한 디렉토리에 모았더니 95개가 된 상황에 직면한 것이다. 왜 그랬겠는가? 바로 일부 파일의 이름이 같기 때문이다. Finishing 작업이 진행될 때마다 입수한 크로마토그램을 일차적으로 점검한 뒤 품질이 나쁜 것은 따로 떼어서 보관을 했었는데, 재반응 결과물의 경우 일련번호를 바꾸는 것에 소홀했던 면이 조금은 있었다. 파일 이름 중복은 아주 흔하게 벌어지는 일이지만, 바로잡으려면 여간 짜증이 나는 것이 아니다. 이름이 중복된 크로마토그램의 대부분은 최종 assembly에 남아있지 않아서 큰 문제는 없었지만, 이번에 게놈 고물상에 입고하기 위해 '먼지를 털어내는' 과정에서 오류를 전부 바로잡고자 하였다. BASH에서 돌아가는 몇 가지 유틸리티(find, sort, comm 등)를 이용하여 오류 추적 및 수정을 하느라 부처님오신날 휴일을 반납해야만 했다.

최종적으로 82,700여개의 크로마토그램이 확인되었지만 어셈블리(ace file)에는 남아있지 않은 14개의 크로마토그램은 그 존재를 확인할 수 없었다. 약간의 아쉬움이 남지만 이것이라도 건진 것이 어디인가.

하드디스크에 남아 있는 정보가 전부는 아니다. 손으로 기록한 노트(아마 예전에 근무하던 사무실 어딘가에 남아 있을 것임)를 뒤져가며 궁금한 사항을 확인하고 싶은 욕구를 애써 참았다. 왜냐하면 과거의 연구 데이터를 보관 목적으로 정리하기 위해 들이는 노력이 당시 연구에 쏟은 노력보다 더 큰 것은 낭비일 수도 있다는 생각이 들었기 때문이다. 물론 이러한 논리가 맞지 않을 수도 있다. 뭔가를 고치는데 드는 비용이 새로 사는 것보다 몇 곱절이 더 들더라도 이를 포기하지 못하고 추진할 수밖에 없는 순간이 가끔은 존재하기 때문이다.

한국 토종 미생물인 E681은 다양한 병원균의 생육을 억제할 뿐만 아니라 식물의 생장을 촉진하고 병 저항성을 증가시키는 탁월한 능력이 있음에도 불구하고 실제 농업 현장에 적용될 수 있는 생물농약으로 개발되지는 못했다. 이는 E681 특유의 '변신' 능력, 이른바 phenotypic variation(PV) 때문이었다. 콜로니의 형태가 드라마틱하게 바뀌면서 여러 표현형이 동시에 달라지는 것이다. 생명연에서는 E681의 유전체 염기서열을 밝히고 이에 기초한 여러 연구를 오랫동안 수행해 왔지만, 표현형의 변화가 정확히 어떤 메커니즘에 의해서 유발되는지를 밝히는 데까지는 지속되지 못하였다. 내 기억으로 두 가지 형태의 콜로니로부터 genomic DNA를 분리하여 일루미나 플랫폼으로 시퀀싱하여 비교를 하였으나 뚜렷한 유전적 증거를 찾지는 못하였다. 아쉽게도 E681 연구의 산 증인이셨던 박승환 박사님이 정년퇴임을 한 이후로는 생명연이 아닌 안동대학교의 전용호 교수 쪽에서 후속 연구가 더욱 활발하게 이어지고 있다.

안동대 전용호 교수 연구팀, 미생물 변이 변이 관련 활성 저하 원인 구명(2020년)

시간이 된다면 연구 보고서('페니바실러스 폴리믹사균의 표현형 변이 기작 연구'(2019-2022), ScienceON 링크)를 탐독하면서 호기심을 충족해 보고 싶다.

댓글 없음: