2025년 6월 20일 금요일

NCBI SRA(Sequence Read Archive)에는 도대체 얼마나 많은 데이터가 올라오고 또 다운로드될까?

부제: INSDC 제38회 연례회의에서 확인한 NCBI의 최근 업데이트

역사와 전통을 자랑하는 International Nucleotide Sequence Database Collaboration(INSDC)에서도 미국의 영향력은 대단하다. 세 기관이 창구 역할을 하여 제각기 등록받은 데이터는 매일 동기화되어 어디를 통하든 동일한 데이터를 공유할 수 있지만, 실제로 미국의 연구활동을 통해 생산되고 미국 NCBI를 통해 등록되는 데이터의 분량이 압도적으로 높은 것으로 알려지고 있다. 예를 들어 DDBJ의 기여분은 1.98%에 불과하다.

특히 요즘 점점 더 인기가 높아지는 것은 sequencing raw data의 모음인 SRA일 것이다. 그 용량이 막대함은 누구나 쉽게 상상할 수 있다. 우리는 늘 수치(=실적)에 민감하지만, 압도적 우위를 차지하고 있는 곳에서는 하루에 얼마나 많은 데이터가 제출되는지에 대하여 일희일비할 필요가 없을 것이다. 다만 저장 공간을 확보하기 위하여 예산을 수립할 때에는 데이터 등록 현황을 꼼꼼하게 들여다볼 것이다.

NCBI의 SRA는 민간 클라우드에서 서비스되고 있다. ChatGPT에 물어보니 AWS와 GCP의 S3/GCS 버킷에 저장되고 있다고 한다. 여기에는 공개된 데이터와 dbGaP 등 controlled access를 통해 제공하는 것이 전부 포함된다. 

그러면 SRA를 통해서 얼마나 많은 데이터가 이동하는 것일까? 작년 11월 워싱턴 DC에서 열린 AI-바이오과학 협력회의(AI-Bioscience Collaborative Summit, 관련 글 링크)에 참여한 일이 있다. 여기에서 NCBI의 책임자 Kim Pruitt가 발표했던 자료를 그대로 사진으로 찍었었다. 사진 촬영 금지라는 말은 없었으니... 지금 다시 살펴보니 슬라이드 이것이 NCBI 전체를 통한 데이터 흐름인지, 혹은 SRA에 국한된 것인지는 잘 기억이 나지 않는다.


하루에 등록되는 데이터의 분량은 수십 테라바이트, 처리되는 용량은 2 페타바이트, 다운로드는 수천 테라바이트, 월 단위 사용자는 2억명 이상. 참으로 부러운 현실이다. KOBIC에서는 수십 페타바이트를 수집하려고 해도 정말 어려운데 말이다. 지난주에 영국에서 열렸던 INSDC 제38차 연례미팅에서 이것과 거의 똑같은 슬라이드가 제시되었고(다녀온 출장자에 의해서 확인), 제목은 'Daily Data Flow at NCBI'였다. 사용자는 월 단위가 아니라 일 단위로 환산하여 4백만명 이상으로 고쳐져 있었다.

INSDC 연례회의에서 제공한 자료는 외부에 함부로 공개하지 말아 달라는데, 다음 슬라이드와 같이 부러움을 사는 '자랑질'에 해당하는 것은 공개해도 상관이 없을 것이다.

아... 부럽네.

INSDC 연례회의 자료로부터 NCBI의 업데이트 사항을 정리해 보고자 한다.

'날것(raw) 데이터'인 SRA의 가치 못지 않게 GenBank의 genome도 대단히 귀중한 정보 자산이다(release note). RefSeq는 또 그렇지 아니한가. '여기에 다 있다!'라고 해도 과언이 아닐 수준으로 잘 정리된 유전자와 단백질 서열이 확보되어 있으니, 이를 대상으로 하여 만들어지는 BLAST database 또한 진화하고 있다. 2024년 8월부터 nucleotide search의 기본 DB가 된 core_nt는 기존의 nt와 달리 주요 유전자와 전사체 서열 중심으로 정리하여 축소된 형태이다(NCBI Insights 2024년 7월 18일). 따라서 더 빠르고, standalone search를 위해 다운로드하기 용이하다. 쉽게 말해서 유전자가 아닌 부분의 염기서열은 제외하였으며, EST/STS/GSS/WGS 등도 빠졌다. 2022년부터는 단백질 서열 데이터베이스로서 ClusteredNR이 쓰이고 있다(NCBI Insights 2022년 5월 2일). Mmseqs2를 이용한 클러스터링 기준은 ≥90% 서열 유사도 및 길이이다. 두 데이터베이스 모두 검색을 신속하게 수행하고, 더 정보가 많은 hit가 검색결과 상단에 뜰 수 있도록 노력한 것이다.

이외에도 Viral Annotation DefineR(VADR, 논문; standalone version은 GitHub에 있음)은 현재 뎅기 바이러스, 노로바이러스, SARS-CoV-2, Mpox(원숭이두창) 병원체의 유전체 주석화에 쓰이고 있으며, FCS(Foreign Contamination Screen, GitHub)는 prokaryotic genome에 대한 자동 점검 결과를 제공한다. Contamination이라고 판정하는 지표의 cutoff는 여기를 참조할 것.

Eukaryote genome annotation을 위한 도구인 EGAPx(NCBI Insights 2024년 11월 20일) 현재 GenBank 제출물을 통해 쓰이고 있으며, 향후 INSDC GFF3 작업이 진행되면 ENA나 DDBJ의 제출물에도 적용될 것이다.

INSDC는 생명과학 분야의 open access를 위한 첨병 역할을 해 오고 있다. 그러나 이들이 개별적으로 유지하는 모든 DB가 다 공유되는 것은 아니다. DDBJ의 Arita 박사가 2021년 발표한 논문(Open Access and Data Sharing of Nucleotide Sequence Data)에서 인용한 다음의 표를 보라. 신약개발을 꿈꾸는 기업은 open access가 커버하지 못하는 영역에 더욱 관심을 갖고 있는 것은 아닐까?



3개 기관의 협의체라고는 하나 데이터의 분량이라든가 이를 뒷받침하는 분석 역량은 미국으로 매우 심하게 기울어진 상태이다. 워낙 많은 양질의 서열 데이터가 한 곳에 모이고 있으니, 이로부터 레퍼런스에 해당하는 게놈(+주석화)과 유전자를 추출해 내고, 시각화 내지는 분석을 위한 수준 높은 도구를 계속 만들어 낼 수 있다. 다음과 같은 곳을 방문해 보라.

NIH Comparative Genomics Resource (CGR)

글로벌 협력을 꿈꾸는 INSDC에 우리나라는 무엇을 내세울 수 있으며, 또 어떤 기여를 할 수 있는가? 많은 고민이 필요하다.

2025년 6월 18일 수요일

데이터 거버넌스의 여러 모델

KOBIC 웹사이트의 KOBICian's Story에 6월 23일에 게재 예정인 나의 글을 블로그에 따로 소개하고자 한다. 원문에는 없던 링크와 그림을 삽입하고 약간 수정하였다.

데이터 거버넌스의 여러 모델

요즘 거버넌스(governance)라는 낱말이 심심치 않게 많이 쓰입니다. 동사 govern이 ‘지배하다, 통치하다’ 등의 뜻을 지니고 있으니 이로부터 파생된 거버넌스는 ‘통치, 지배, 관리, 운영’ 정도의 뜻을 지닐 것으로 생각하기 쉽습니다. 틀린 해석은 아니지만 최근 들어서 다른 낱말과 같이 쓰이면서 그 의미가 더욱 확장되었습니다. 예를 들자면 ‘데이터 거버넌스’와 같은 것입니다. 거버넌스의 현대적 의미는 조직이나 기관 또는 시스템을 지휘하고 관리하며 책임을 지는 방식의 틀, 절차 그리고 관행입니다. 동사 govern에서 파생된 또 다른 명사 government(정부)는 폐쇄적이고 수직적인 소통이 주류를 이루지만, 이와 대조적으로 거버넌스에서는 외부와 네트워크로 연결되는 개방적이면서도 열린 조직을 추구한다고 합니다. 그래서 어떤 사전을 찾아보면 거버넌스를 ‘협치(協治)’로 풀이합니다.

현대 지능정보사회에서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 양질의 데이터를 확보하여 효율적으로 사용하고, 법령을 준수하며, 나아가서는 미래 경쟁력 확보를 위해 데이터를 전략적 자산으로 만들기 위해서는 잘 설계되고 실행 가능성을 갖춘 데이터 거버넌스가 필요합니다.

1990년대에 접어들면서 과학 논문이 유료 저널에 게재되는 일이 흔해지고 데이터 접근도 어려워지자, 오픈 사이언스 재단에서는 2002년 부다페스트에 모여서 과학 및 학술 연구 결과물을 누구나 자유롭게 접근하고 사용할 수 있도록 하자는 원칙을 제시하였습니다. 2021년 UNESCO에서는 194개 회원국이 만장일치로 오픈 사이언스 권고안을 채택하였습니다. 여기에서는 오픈 액세스, 오픈 데이터, 오픈 인프라, 시민 참여 및 전통 지식 체계와의 대화 등 오픈 사이언스의 핵심 요소를 구성하고 실행을 위한 우선 과제를 제시하게 되었습니다. 이 권고안의 탄생 배경에는 역설적으로 COVID-19 팬데믹이라는 대재앙이 매우 중요하게 작용하였습니다. 병원체 게놈 정보의 신속한 공개 덕분에 빠른 진단과 백신·치료제 개발이 가능하였고, 데이터 공유를 통해 신속하고 동시다발적인 연구 협력을 할 수 있었습니다. 이 사실은 UNESCO의 오픈 사이언스 관련 문서에도 실려 있습니다.

오픈 사이언스 원칙의 올바른 실행 측면에서도 데이터 거버넌스는 큰 의미를 갖습니다. 단지 연구 데이터를 개방한다고 해서 이를 모두가 신뢰하고 쓸 수 있는 것은 아닙니다. 데이터의 품질을 일정 수준으로 끌어 올리고, 그 사용에 대한 책임 소재를 명확히 하며, 접근 권한을 정교하게 설계하는 것은 모두 데이터 거버넌스의 영역입니다. FAIR(Findable·Accessible·Interoperable·Reusable) 원칙은 오픈 사이언스와 동일한 것은 아니지만 상호 보완 관계에 있으며, 오픈 사이언스를 실현하는 도구가 될 수 있습니다. 현재 KOBIC의 국가바이오데이터스테이션은 외부 기관과 협력하여 FAIR 성숙도를 점검하는 일에 착수하였습니다(참고: GO FAIR Initiative).

오픈 사이언스는 얼핏 생각하면 데이터의 자산화 경향과 충돌하는 것처럼 보입니다. 데이터를 생산한 주체는 이를 소유물로 인식하고 배타적 권리를 주장하려는 경향이 있습니다. 산업계에서는 당연히 이를 보호하고자 합니다. 정부 연구개발과제로 생성된 연구 데이터를 국가적 전략 자산으로 여겨서 통제하려는 것도 어찌 보면 자연스러운 현상입니다. 특히 유전체 정보나 보건의료 정보는 개인 차원에서 보호해야 하는 민감정보이자 기업·국가 차원의 경제적 자원이지만, 새로운 연구 성과로 이어질 수 있는 중요한 재료이므로 공공적 활용을 더욱 촉진하기 위해 개방해야 한다는 목소리도 높습니다. 

이러한 요구사항을 전부 충족시키는 것은 어차피 불가능하니 적절한 중간 지점에서 타협해야 합니다. 데이터 거버넌스의 한 형태라고 볼 수 있는 데이터 커먼즈(data commons)가 해결책이 될 수 있습니다. 커먼즈(commons), 즉 공유지는 본래 모두가 함께 공유하고 관리하는 자원을 뜻합니다. 1960년대 말 사이언스에 발표된 유명한 논문 ‘공유지의 비극(The Tragedy of the Commons)’에서 지적했듯이, 공유 자원은 개인의 합리적인 이기심에 의해 철저히 파괴되고 고갈된다고 하였습니다. 그러나 엘리너 오스트롬(1933-2012)은 ‘커먼즈의 거버넌스(원제는 Governing the Commons: The Evolution of Institutions for Collective Action’)라는 책을 통해서 이를 반박했습니다. 즉 공동체가 공통의 규칙과 책임 아래 자원을 개방하고 공동으로 관리하여 이를 지속적으로 지켜 나갈 수 있음을 주장하였습니다. 경제학에는 시장과 국가만 존재한다는 이분법을 깨뜨린 공로로 오스트롬은 2009년 노벨 경제학상을 수상하였으며, 현대적 의미의 거버넌스 개념을 제창하고 정립하였다고 평가해도 무방할 것입니다.

요즘은 이로부터 한발 더 나아가서 신뢰 기반의 커먼즈(trusted commons) 개념이 등장하였습니다. 이는 전통적 커먼즈 모델에 신뢰, 안전성 및 책임의 요소를 더한 것입니다. 경제적 활용 가치가 매우 높지만 함부로 공개될 경우 정보 주체에게 피해를 줄 수 있는 보건·유전체 정보의 안전하고도 책임 있는 활용을 선도해 나갈 수 있는 것이 바로 신뢰 기반 커먼즈입니다. 미국 NIH의 dbGaP(The database of Genotypes and Phenotypes)이나 유럽의 EGA(European Genome-phenome Archive), 그리고 KOBIC의 인체유래데이터은행이 바로 이러한 신뢰 기반 커먼즈의 사례입니다.

신뢰기반 커먼즈의 핵심 요소를 간단히 설명하자면 다음과 같습니다.

  • 접근 통제(access control): 데이터를 누가 어떤 조건에서 사용할 수 있는지를 명확히 정함
  • 책임성(accountability): 데이터를 사용하는 사람은 그 사용 내역과 목적에 대해 책임을 져야 하며 기록을 남겨야 함
  • 투명성(transparency): 데이터가 어떻게 수집되고 누구에게 공유되며 어떻게 사용되는지 공개해야 함
  • 형평성과 포용성(equity & inclusion): 데이터 기여자나 소외된 집단도 공정하게 혜택을 누릴 수 있어야 하며, 차별 없이 접근할 수 있도록 배려해야 함
  • 상호성(reciprocity): 데이터를 사용하는 사람은 그 결과나 혜택을 다시 커뮤니티에 돌려줘야 함




지난 4월 미국 신생명공학 국가안보위원회(National Security Commission on Emerging Biotechnology)가 발간한 보고서 ‘Charting the Future of Biotechnology’에 따르면, 미국은 생명공학 분야에서 중국의 급부상을 경계하면서 유전체, 인공지능(AI) 및 바이오제조 등에서 자국의 지속적인 우위를 유지하기 위한 새로운 모델인 Web of Biological Data를 구축할 것을 제안하였습니다. 이는 신뢰 기반 커먼즈의 확장판으로서 FAIR + 신뢰 기반 + AI-ready 상태의 국가적 디지털 인프라에 해당하며, 하나의 통합된 창구(single access point)를 제공한다는 점이 핵심입니다. 부연하자면 분절되어 존재하는 데이터 리포지토리에 대한 검색 및 활용을 한 곳에서 제공함으로써 사용자의 편의성을 높일 수 있게 한 것이지만. 신뢰할 수 있는 국가 또는 동맹국 중심의 국제 협력을 유도하기 위한 밑그림일 수도 있습니다.

새 정부가 들어서면서 모두가 국정과제를 수립하기 위한 바쁜 움직임에 들어갔습니다. AI는 이미 우리 주변에 깊숙하게 자리 잡았고, 머지않아 바이오 경제 시대에 진입하게 될 것입니다. KOBIC이 정성스럽게 모은 양질의 바이오 연구 데이터가 안전하게 널리 활용되어 공공의 이익에 기여하고, 아울러 글로벌 바이오 데이터 저장소의 모범이 되기를 기대해 봅니다.


2025년 6월 12일 목요일

ChatGPT를 보다 능률적으로 쓰는 방법 - 중간 단계마다 저장한 파일을 활용하기

ChatGPT에서 하나의 주제로 대화창을 만들어서 몇 달에 걸쳐서 이야기를 풀어 나가는 방법은 시간이 지날수록 효율이 떨어진다. 문답을 주고받으며 발전해 나가는 전체 대화를 기억해 주는 것은 매우 고마운 일이지만, 기억할 정보의 분량이 많아지면서 점점 많은 시간이 소요되기 때문이다. 하루에도 몇 개의 새로운 대화를 만들어 내기 때문에, 과거의 대화에서 내가 원하는 정보를 다시 찾아내는 일도 매우 번거롭다.

그래서 효율화를 위해 하나의 꼼수를 생각해 냈다. 예를 들어 아두이노 나노를 이용한 MIDI 컨트롤러(EZ Ardule MIDI Controller)를 설계하는 대화는 너무 길어져서 새로운 기능을 제안하여 구현 가능성을 평가하고 회로와 코드를 설계하는 데에도 많은 시간이 걸린다. 이에 따라서 지금까지의 결론을 종합하여 문서로 정리하여 보관한 뒤, 다음번 세션에서는 이 파일을 새 창에 로드한 뒤 추가적인 변경 사항을 적용해 나가는 것이다.

어설픈 개념을 실증하는 물건 하나를 만드는 단순한 일이지만 실제로 해 보니 핀 배치나 코드 작성보다 메뉴 및 작동법을 설계하는 것이 더 어렵다. 몇 개 되지 않는 버튼과 인코더를 이용하여 능률적이면서도 직관적인 조작 인터페이스를 만들어야 한다. 그러니 진짜 양산용 신시사이저를 만들 때에는 얼마나 많은 실행 착오가 있었겠는가? 실제 DIY 과정에서는 케이스 가공이 또 발목을 잡을 것이다. CAD 가공을 하기 어려운 재활용품 수준의 알루미늄 섀시에 LCD를 위한 네모진 구멍을 어떻게 뚫는단 말인가? 어쨌든 ChatGPT 덕분에 직접 프로토타입을 만들어 단계별로 실증해 나가면서 진행하지 않고 오로지 컴퓨터와 대화하면서 시행착오를 줄여 나가고 있으니 그것만으로도 참 고마운 일이다. 브레드보드에 부품을 올려서 작동해 보면 미처 생각하지 못했던 문제점이 또 발견될 것이다.

EZ Ardule의 조작 및 디스플레이부 시안. 앞으로도 계속 바뀔 것이다. 몇 개 되지 않는 버튼 스위치와 다이얼로 효율과 일관성을 유지하기가 참 어렵다. 뒤에서 이를 구동하는 코드를 짜는 것은 또 얼마나 어렵겠는가?


중간 과정마다 파일로 저장하여 다시 로드하는 방법이 모든 종류의 대화에 어울리지는 않을 것이며, 단점도 갖고 있다. 각 단계에서 저장된 파일을 잘 관리해야 하고, 중간에 바뀐 것을 나중에 음미하고자 할 때 원본 자료를 찾기가 약간 난해하다. 즉, 매번 파일로 저장한 것이 최선이고 다시 과거로 돌아갈 일이 없다고 가정한다면 가장 좋은 방법이 될 수 있다. 

이런 용도의 중간 저장본은 PDF보다는 Word 파일이 더 낫다. 파일을 다운로드하여 나름대로 생각한 수정사항을 반영하여 편집한 뒤, 다시 업로드하여 후속 작업을 할 수 있기 때문이다. PDF는 수정할 일이 없는 최후 버전을 미려하게 만들 때 유용하다. 단, 글꼴을 별도로 업로드하고 포맷도 상세하게 지정해 줘야 실수를 하지 않는다. 오죽하면 한글 PDF 출력용 텍스트 생성 가이드 템플릿을 별도로 만들었겠는가(관련 글 링크). 글꼴은 나눔고딕(NanumGothic.ttf, NanumGothicBold.ttf)을 추천한다. ChatGPT는 용지 밖으로 글이 길게 튀어나가도록 자꾸 실수를 하기 때문에 제발 이러지 말라고 명시적으로 지시해 줘야 한다.

이 텍스트를 A4 크기의 한글 PDF로 출력 가능한 형태로 정리해 줘.

- 줄바꿈이 잘 되도록 문단을 정돈해 줘.
- 여백은 좌우 20mm, 위아래 20mm로 맞춰 줘.
- 줄간격은 약 1.4배로 해 줘.
- 본문 글꼴은 '나눔고딕(NanumGothic)'을, 제목에는 '나눔고딕 Bold'를 사용해 줘.
- 글꼴 파일은 내가 업로드할 테니 그걸 적용해 줘.
- 용지 밖으로 문장이 튀어나가지 않게 해 줘.
- 단락마다 적당한 줄 간격(공백)도 넣어 줘.

최종적으로는 PDF 파일로 만들어 줘.

어떤 주제에 대해서 보고서를 자동 생성하게 하면 검증이 필요함을 몇 번의 경험을 통해 알게 되었다. 예를 들어 존재하지도 않는 「바이오경제의 육성 및 지원에 관한 법률」(바이오혁신법)이 2024년부터 시행된다고 하는 것 말이다. 농림축산식품부에서 만든 「그린바이오산업 육성에 관한 법률」이라는 것은 그 존재를 확인하였다. 모든 분야를 통틀어서 '바이오산업'이란 용어가 들어간 법령은 이게 유일한 것 같다. 상당히 발빠른 행보가 아닐 수 없다. 

ChatGPT가 만든 결과물을 전부 믿을 수는 없지만, 문서 파일을 입수하여 업로드한 뒤 그 범위 안에서만 번역·요약하고 시사점을 도출하게 지시하면 꽤나 만족스런 결과물이 나온다. 이건 인간 지능의 몫인데... 시간은 부족하고 검토할 자료는 많으니 기계의 힘을 빌릴 수밖에. 씁쓸하다.

2025년 6월 11일 수요일

'K-휴지'는 물에 녹지 않는다?

'선풍기를 켠 채로 자면 죽는다'는 속설이 한국에서만 유행했던 적이 있다. 이런 미신을 비꼬는 듯한 영문 웹사이트 'FanDeath'라는 것이 있었다. 그 웹사이트를 방문하였던 기억은 지금도 선명하다. 최상위 도메인이 com인지 org인지는 모르겠다. 

특히 그 사망의 원인으로서 '질식'이 늘 꼽혔는데, 선풍기 바람에 호흡 장애가 일어나거나 질식한다는 것은 상식적으로도 이해가 되지 않는다. 나는 선풍기의 작동 소음이 싫고, 특히 잠을 잘 때에는 몸에 차갑게 바람이 닿는 것을 싫어한다. 그래서 타이머가 꺼지고 나서야 비로소 잠이 들 때가 많다.

어제 세종시에 있는 어떤 회의장에 갔다가 화장실에서 재미있는 안내문을 보았다. 본 화장실에 비치된 휴지는 물에 풀어지지 않기 때문에 변기에 넣지 말고 반드시 옆에 놓인 휴지통에 넣으라는 것이다.

국내에서 팔리는 화장실용 휴지는 국가기술표준원에서 정한 규격과 KS 인증을 통과해야만 한다. 그런데 그 화장실은 그 규격을 통과하지 못하는 훨씬 질긴 것을 구입하여 비치한단 말인가? 왜? 사용 중에 찢어질 것을 우려하여? 잘 이해가 가지 않는다.주변에서 흔히 보는 두루마리 하나를 그대로 변기에 넣지 않는 이상 상식적인 사용량 수준에서는 막히는 일이 벌어지지 않는다.  대나무 펄프로 만든 휴지는 질긴 편이라고 하는데, 그렇다고 하여 변기를 막을 수준은 아닐 것이다. 

물론 세상은 상식적인 사람만으로 채워지지는 않는다. 미국 여행 중 패스트푸드점의 소변기에서 볼일을 보고 허리 높이의 레버를 발로 차듯이 밀어서 물을 내리는 사람을 본 일이 있었으니까 말이다. 심지어 좌변기의 레버를 손으로 누르냐 발로 누르냐에 대한 논쟁이 벌어진 일도 있었다.

"공중 화장실 변기 레버는 바닥에 설치돼있지 않는 이상 손으로 누르는 것이 맞다"(링크)

페이셜 티슈('크리넥스')나 냅킨 종류는 질긴 편이라서 화장실에서 쓰기에는 적합하지 않으니 예외로 하자.

공중 장소의 화장실에서 흔히 보는 또 다른 안내문 중에는 이런 것이 있다. 수압이 약하여 자주 막히니 사용한 휴지는 별도의 휴지통에 넣어 달라는 것. 표준 양변기의 물탱크 용량은 6~10리터라고 한다. 채워진 물의 부피를 줄이기 위해 일부러 벽돌을 몇 장 넣지 않고서는 수압이 약할 수가 없다. 결국 화장실용 휴지를 변기에 넣으면 막힌다는 것은 선풍기를 켜고 자면 죽는다는 'K-미신'과 다를 바가 없다.

변기가 막히는 가장 큰 원인은 변기에 넣어서는 안 되는 물건을 넣기 때문이다. 대표적인 것이 물티슈이다. 용케 변기를 막지 않고 흘러 나간다 하더라도 하수처리장까지 가서 모이면 문제를 일으킨다. 

사용한 화장실용 휴지가 갈 곳은 변기밖에 없다. '변기에 넣지 말고 제발 휴지통에 넣어 주세요'라는 경고물을 제발 더 이상 보지 않았으면 좋겠다.

2025년 6월 10일 화요일

수운교 도솔천(水雲敎兜率天)에 가다

수운교란 1923년 세워진 동학 계열의 신종교이다. '수운'이란 동학을 창시한 최제우(1824~1864)의 호이다. 동학에서 발전하여 생겨난 천도교와 수운교는 같지 않다. 다들 아다시피 동학이란 서학(천주교)에 대항하여 생긴 종교이다. 수운교에 대한 정보는 공식 웹사이트 또는 한국민족문화대백과사전을 참고하라. 이 계열의 종교에서 최제우는 '하늘님'을 대신하는 천사(혹은 예수나 무함마드?)와 같은 존재인 것 같다. 그리고 하늘님을 일컫는 말은 정말 여러 종류가 있다.

하늘님/하느님/하날님/하나님/한을님/한우님/한울님 - 작성자: 탁암 

대전 유성구의 자운대라는 동네는 1990년대부터 군사 학교와 시설이 모인 곳이다. 흔히들 신성동이라는 행정동 이름으로 한꺼번에 부르지만, 자운대가 자리잡고 있는 곳은 법정동인 자운동과 추목동 등지이다. 자운대 지역으로 들어갈 때 거쳐가야 했던 검문소는 이제 없어졌다. 이곳을 찾은 일요일 오전, 군사 학교 등이 좌우로 펼쳐진 너른 길에서 달리기를 하는 사람 두어 명을 보았다. 사거리에서 2km 넘게 직진하여 들어간 뒤 좌회전하여 공동주택단지 사이로 접어들면 수운교 도솔천으로 가는 입구가 나타난다.

도솔천을 마지막으로 찾았던 것이 아마 십오륙년 전일 것이다. 숲길을 들어서니 평온하고 시원한 공기가 우리를 감싼다.

도솔천이란 불교의 천계 중 욕계에 속하는 네 번째 하늘이며, 미륵보살이 머무는 것이다.

수운교 도솔천은 1929년에 지어진 건물로서 대전광역시 유형문화유산이다. 절로 치자면 대웅보전과 같은 곳이다. 지붕 위에 잡상을 올린 것은 마치 조선시대 궁궐을 보는 것만 같다. 수운교의 창시자 이상룡이 설계하고, 조선 말기 경복궁을 중건한 최원식이 지었다고 한다.



바닥에 돌을 박아 교기(敎旗)인 궁을기(弓乙旗)를 새겼다. 수운교 공식 웹사이트에 의하면 "궁은 선(仙)이요, 을은 불(佛)이니 선불합덕이다. 하늘과 땅이 열리고 닫히는 조화의 문이며, 음양이 출입하는 길이요, 만물이 생성하는 기틀이다."라고 하였다. 중앙에 점을 찍으면 천도교의 궁을기와 같은 모양이 된다.



도솔천은 하늘님을 모신 천단이다. 마침 옆문이 열려 있어서 여기까지 접근할 수 있었다.

돌로 두드리면 쇠소리가 난다는 석종. 도솔천 서쪽에 있다.

수운교의 세계관을 그린 삼천대천세계도는 올해 국가등록문화유산이 되었다(기사 링크).

도시락을 싸 들고 가서 울창한 나무 그늘 사이에서 한가롭게 거닐고 싶은 곳이다. 비록 동학의 기본 정신을 받아들이지는 않더라도. 실은 요즈음 이중표의 <윤회와 해탈>을 읽고 있는 중이다. 나 자신은 현재 종교를 갖고 있지 않은 상태가 되었지만, 어떤 종교든지 그 탄생 배경을 이해하고 약간은 깊이 있게 공부하고 싶은 욕심이 있다. 



2025년 6월 6일 금요일

KORG X2의 2025년도 수리를 마무리하였다 - 헤드폰 앰프용 op amp 및 12V 전원 보드 교체

헤드폰 앰프 칩(M5261L)을 교체하고, +/-12V 전원 공급 보드를 약간 더 고급 제품으로 교체하는 것으로 올해의 수리를 마무리하기로 하였다. Hiss-like 잡음을 완벽하게 잡는 데에는 실패했지만, 볼륨을 최대로 했을 때 헤드폰에서만 들리는 잡음에 너무 집착하지는 않는 것이 나으리라. 이것 말고도 올해 마무리해야 할 MIDI/audio 관련 DIY는 몇 가지가 더 있다.

팝업 노이즈는 +5V와 +/-12V 전원 공급 보드를 서로 다른 것을 사용하면서 조화를 이루지 못하는 데에 기인하는 것으로 여기고, 파워 스위치를 작동시킬 때 볼륨 슬라이더를 최대로 내리는 것으로 대충 모면하기로 했다. 5V가 공급되고 나서 커넥터를 끼워 넣으면서 12V가 들어오도록 해 봤는데(0.x초였을 것이라고 자신함) 여전히 팝업 노이즈가 발생했기 때문이다. 따라서 지연 릴레이 모듈은 일단 부품통 속으로 들어갔다.

12V 전원 공급 보드를 바꾸기 전에 메인보드에서 DAC 및 IVC에 공급되는 5V를 오실로스코프로 아래 그림의 빨간 지점에서 측정해 보았을 때 아주 깨끗하였다. 따라서 LT3042 초저잡음 LDO를 이용한 레귤레이터 보드도 부품통 속으로 보냈다.



이대로 마무리하기가 아쉬워서 M5261L op amp를 교체하였다. 혹시 가짜 칩이 아닐까 걱정을 했는데 소리가 잘 난다. 하지만 hiss 잡음은 별다른 변화가 없다.

M5216L('a high-output and high speed operational amplifier for use in high-performance headphone amplifiers and mizer amplifiers found in cassette decks'). 위의 것이 아날로그 보드에 원래 꽂혀 있던 것이다.

새 칩이 자리를 잡은 후.


다음으로 LM317/LM337을 사용한 +/-12V 전원 보드를 장착하였다. 기존의 것을 들어내고 나니 자리가 부족하여 옆의 빈 공간을 활용하였다.


아, 이 무슨 난해한 배치인가.


개조를 마친 뒤 Audacity에서 무음 상태로 녹음을 한 뒤 50dB 증폭을 하여 재생해 보았다. '쉬-잇' 말고는 험이 들리지 않는다. 마지막으로 WaveSpectra에서도 측정을 해 보았다. 60Hz/120Hz 근방에 별다른 피크가 보이지 않는다.


앞으로 잡음은 잠시 잊어 버리고 '음악 공부'를 더 하는 것이 나을 것이다. 혹시 모르니 내년쯤 아날로그 보드의 모든 전해 커패시터를 교체해 보리라.

노이즈의 특성을 이해하지 못한 해프닝이었을까? 3월부터 끌어온 이 프로젝트가 나에게 무엇을 남겼는지 곰곰이 생각해 보았다. 전동 드라이버와 오실로스코프 등 DIYer에게 필수라고 할 수 있는 공구와 계측기를 갖게 되었고, PCB에서 부품을 떼는 요령도 많이 늘었다. SMD 부품을 떼고 붙이는 데까지 함부로 흥미를 갖지 않게 된 것은 다행스러운 일이다.

Tactile switch는 어차피 고쳐야 할 것이었고, 결과적으로 강압 트랜스포머 없이 220V에 직결하여 쓸 수 있게 개조한 것도 의미 있는 일이었다. 2025년이라는 시대에 '빈티지 신스'인 X2를 이용하여 라이브 연주나 녹음을 하겠다는 의지가 생겼다는 점이 무엇보다 중요하다.

 

부품통의 새 전해 커패시터도 제조일자를 확인해 가면서 써야 하는가? ESR까지 측정해 가면서?

며칠 전, 알리익스프레스에서 5,785원에 구입한 키트형 XR2206 1Hz-1MHz 함수 발생기(function generaor)를 조립한 뒤 30,250원짜리 오실로스코프에 연결하여 테스트를 하다가 깜짝 놀랐다. 0볼트를 중심으로 움직이는 교류 신호(정현파, 삼각파, 사각파)가 아니라 DC 오프셋이 존재하는 형태인 '맥류'였던 것이다. 공급 전압이 9~12VDC이므로 대략 그 중간 어딘가를 기준으로 변동하는 출력이 나오는 것은 대단히 자연스럽다. 하지만 이 상태로는 자작 오디오 앰프의 성능을 시험하는 신호원으로 쓰기가 나쁘다.


조립 후 뚜껑을 덮기 전.


회로도. XR2206 monolithic function generator의 데이터시트는 여기를 참조할 것.


instructable.com의 7$ Functiona Generator Kit With XR2206 Problems: Don't Buy Before Watching이라는 글에서도 'There's always around 5.56V DC offset in the output'이라고 하였다. 조립 과정 및 테스트에 대한 아주 상세한 글은 여기(XR2206 Function Generator Assembly and Operations manual)에 있다.

물론 대부분의 앰프 입력단에는 DC를 차단하기 위한 커플링 커패시터(coupling capacitor)가 들어 있어서 실용적으로 문제는 없을 것이다. 그러나 판매자는 이러한 사실을 정확하게 알려 주어야 하지 않았겠는가? 국내에서도 이 키트를 소개하면서 제작 및 테스트 과정을 보여주는 유튜버가 있었는데 DC offset에 대해서는 아무 언급이 없었다.

갖고 있는 몇 종류의 커패시터를 함수 발생기 출력 단자에 직렬로 연결해 보면서 AC 신호를 잘 뽑아내는 데 어느 것이 가장 좋은지 점검해 보았다. 1uF 미만의 필름 캐패시터는 그 역할을 아주 잘 수행하였다. 그런데 전해 커패시터는 그렇지 않았다. 4.7uF의 무극성 전해 캐패시터 및 10/22uF의 일반 전해 커패시터를 연결해 보았지만 DC 오프셋이 거의 제거되지 않았다. 도대체 왜 그런가? ChatGPT와 대화를 해 보니 '오래 되어서 성능이 떨어져서 그럴 수 있다'는 것이다.

104(0.1uF) 필름 커패시터로 테스트하는 중. 바닥에 놓인 0.22uF 'X2' 커패시터도 디커플링을 잘 수행하였다. XY 커패시터는 EMC 필터에 쓰이는 특수 커패시터이다(설명).


전해 커패시터에도 유통기한이 있나? 그렇다고 한다. 어떤 글에서는 '직사광선을 피해 개봉 전 6개월, 개봉 후 한 달'이라고 하였다. 미사용 상태의 '새' 전해 커패시터가 슬슬 성능이 떨어진다는 것은 매우 충격적이었다. 아니, 무슨 식품도 아니고... 그러면 7~8년 전에 한꺼번에 구입해 놓은 전해 커패시터는 어쩌라고? 부풀거나 전해액이 흘러서 외관상 확연히 구별되는 (특히 전원부 평활회로의) 전해 커패시터가 아니라면 전면 교체, 즉 '리캡'이 필요하지 않다는 글과, 새 전해 캐패시터라 하더라도 몇 달 안에 써야 한다는 글 사이에서 무엇을 따라야 하는지 고민스럽다.

심지어 보유하고 있는 새 캐패시터의 성능을 사용 전에 점검하기 위해 ESR(Equivalant Series Resistance) 측정기를 장만해야 하는가? '커패시터 누설 저항과 ESR은 일반적인 멀티미터로 측정하기 어려운 고장 지표'라는 것이 1966년에 텍사스 대학교 오스틴 캠퍼스 전기공학과에서 학사를 취득한 William Mays의 의견이다(Quora 링크). 정말 놀랍게도 이것 역시 몇 천원에 구입할 수 있다. 맹그러(Maker)님이 ESR에 관해 쓴 좋은 글(링크)이 있어서 소개한다.

어쩌면 이번의 작은 발견은 자작한 기기를 오랫동안 보수하면서 사용하겠다는 DIYer의 기본 철학에 대한 심각한 도전이 될 것만 같다. 차라리 적당한 주기로 새 물건을 사거나 새로 만드는 것이 더 나을지도 모른다. 전해 커패시터의 수명이 다하기 전에.