2024년 7월 13일 토요일

Samson 파워드믹서 XML610의 주요 사용법 공부하기

XML610이 배달된 것은 이틀 전이었으나 아직 작동 테스트를 하지 못하였다. 스피콘 커넥터로 연결된 PA 스피커와 악기 등은 전부 직장(지하실)에 있지만 거듭된 출장으로 아예 가지를 못했기 때문이다.

이전 모델로 추정되는 XM610(specification)은 채널 수도 6개에 불과하고 중량은 무려 18.2 kg이나 나간다. XML610이 6.5 kg밖에 나가지 않는 것은 class D amplifier를 채용했기 때문일 것이다. Hum & noise 사양은 구 모델인 XM610이 조금 더 우수하다.



지금껏 사용해 온 Behringer Xenyx 802와는 달리 이펙터를 내장하고 있으므로 그 사용법을 잘 이해하는 것이 중요하다. 사용자 매뉴얼을 숙독하면서 Xenyx 802와 다른 점을 공부해 보았다. 

채널 스트립을 따라 세로로 배치된 노브 중 3-band EQ 바로 아래에 위치한 파란색 AUX 1/MON은 pre-fader에 해당하므로 바로 아래 위치한 볼륨 컨트롤의 영향을 받지 않는다. 이 노브는 모니터 버스로 가는 신호의 양을 결정한다. 그 아래의 자주색 AUX 2/EFX는 post-fader이므로 볼륨 컨트롤의 영향을 받으며, 내부의 이펙터 프로세서와 EFX 2 SEND로 나가는 신호의 양을 결정한다. 외장 이펙터를 쓰려면 사용 가능한 5/6~11/12 채널의 6.5 mm TS 단자에 이펙터 출력의 케이블을 꽂아 넣어야 한다.

AUX 1/MON과 AUX 2/EFX의 조절 노브를 확인하자.

모니터 출력 단자는 전면 왼쪽 아래에 있다. 그러나 설정용 슬라이드 스위치('MODE')를 조절하여 오른쪽 채널에서 나오게 할 수 있다. 모니터는 메인 믹스와는 별도로 작동된다. 앞서도 설명했듯이 각 채널의 볼륨 레벨 설정과는 무관하다.

전면의 MAIN OUT 단자는 라인 레벨 신호(+4 dBu)를 내 보낸다는 것을 명심하자. MONITOR OUT은 balanced(mono),  EFFECT(AUX 2) SEND는 unbalanced(mono) 출력이다.

이펙터가 가해지는 정도는 (1) AUX 2/EFX, 이펙터 섹션의 (2) LEVEL, 그리고 7-band graphic EQ 왼쪽 부분에 위치한 (3) EFX 2 MAIN의 총 세 곳의 노브에서 결정하게 된다. 그러나 노브를 돌림으로써 얻는 조절의 실제 내용은 조금씩 다르다. (1)은 입력 신호를 얼마나 내부 이펙터로 보낼 것인가, (2)는 모든 입력 채널에서 전송된 신호를 합쳐서 내부 이펙터로 보내는 정도, (3)은 이것을 다시 메인 믹스에 합치는 양이라고 이해하면 된다. 노브를 12시 방향으로 놓으면 unity(=1), 즉 입력을 가감 없이 보내는 것이다.

REC OUT(RCA 단자)은 graphic EQ를 거치지 않은 신호이다,

스피커를 구동하지 않고 믹서 용도로만 사용해도 손색이 없을 것으로 생각된다. 반도체 파워 앰프에 스피커를 연결하지 않은 상태로 사용해도 문제를 일으키지 않는다.

XML610 및 910 모델의 블록 다이어그램.
 


밴드 연습을 잘 하기 위해서 더 필요한 것은 없을 것으로 믿는다. 당분간은...

2024년 7월 12일 금요일

오픈 사이언스 시대의 연구데이터 공개 정책

서울 출장에서 돌아와서 치과까지 들렀다 집에 오니 너무나 피곤하여 잠시 퍼져 있다가 노트북 컴퓨터의 덮개를 열었다. 어제(7월 11일) KISTI, 즉 한국과학기술정보연구원에서 열렸던 <2024 연구데이터 관리 및 활용 세미나>의 생생한 기억이 사라지기 전에 참석 후기를 쓰기 위함이었다.

세미나가 열렸던 키움관 1층 컨퍼런스룸의 반대편에는 KISTI Studio가 자리잡고 있었다.

'오픈 사이언스란 과학 연구의 결과물과 데이터, 방법론 등을 누구나 접근하고 활용할 수 있도록 공개하는 것을 의미한다'고 ChatGPT는 말하였다. 주요 원칙 중 1순위는 오픈 액세스, 즉 학술 논문(연구 결과물)을 누구나 무료로 읽고 다운로드하게 만드는 것이고, 두 번째는 오픈 데이터, 즉 연구데이터를 공개하여 다른 연구자들이 이를 재사용하고 검증할 수 있게 하는 것이다.

오픈 데이터 정책은 가뜩이나 업무에 시달리는 연구자에게 부담을 하나 더 지우는 것은 맞다. 데이터를 정제하여 친절한 설명을 단 뒤에 정해진 리포지토리에 올리는 일은 논문이나 보고서를 쓰는 일 못지않게 수고스럽기 때문이다. 그나마 생명공학 분야에서는 서열 데이터 등을 전문 리포지토리에 올려서 공개를 해 놓아야만 학술지에서 논문을 받아 주는 전통이 잘 수립되어 있어서 이에 따르는 연구자의 저항감은 비교적 적은 편이다. 특히 국내에서는 국가 바이오 데이터 스테이션(K-BDS)이 그러한 데이터 리포지토리 역할을 수행하고 있으며, 등록 실적을 높이기 위해 많은 노력을 기울이고 있다.

과학자가 얻는 기본적인 보상은 어떤 연구 결과를 누구보다도 먼저 발표하여 인정을 받는 것이다. 이를 위해서는 연구 결과(또는 데이터)의 개방이 근본 전제 조건이 되어야 한다. 그렇다면 데이터를 공유하는 과학자들은 학술적 크레딧을 얻고 있는가? 연구 데이터를 공유하게 만드는 정책은 연구 성과에 어떤 영향을 미치는가? 연구 데이터의 독점적 사용은 과학의 발전을 저해하는가? 이번 KISTI 세미나의 오전 세션에서 발표를 했던 성균관대학교 권석범 교수(논문 목록)는 이러한 질문에 대한 답을 얻고자 하였다. 

발표 중인 권석범 교수. 죄송하게도 앞자리에 앉은 다른 발표자의 뒷모습이 찍혔다. 왼쪽부터 KAIST 이경찬 책임('IR 및 IDR 통합을 통한 연구데이터 서비스 방안 모색'), STEPI 신은정 박사('국내외 연구데이터 정책 동향과 과제').

연구 방법론은 생명과학자인 내가 이해하기는 힘들었으나 결론은 이러했다. 

  • 데이터 공유 과학자의 연구 성과는 더 많이 인용되지만 시간이 흐를수록 인용회수는 더 적어진다. 이는 더 진보된 연구 결과가 등장하기 때문인 것으로 보인다.
  • 연구데이터를 공유(강제?)하는 정책은 연구 성과를 저하시키는 것 같지는 않다. 데이터를 인용하는 과학자가 데이터를 공개하는 과학자를 직접적인 경쟁 상대로 삼는 것은 좋은 전략이 아니기 때문이다. 이는 좋은 전략이 아니다. 이를 활용하여 다른 연구 질문을 해결하는 것(diversion)이 더 나은 선택이다.
  • 독점적 연구 데이터 활용은 나쁜 것만은 아니다. 다른 차원의 오픈 사이언스를 촉발할 수 있다. 

권 교수의 결론은 '데이터 공개는 무조건 좋다'는 우리의 막연한 기대를 그대로 반영하지는 않았다는 점에서 매우 흥미로웠다. 데이터를 모두에게 공개하면 분명 이를 이용하여 이득만 취하는 무임승차자가 생길 수 있다. 데이터가 필요한 사람에게 독점적으로 제공하고 대가를 받는 direct exchange가 더 이득이라고 생각한다면 막을 길은 없다. 따라서 연구 데이터의 공유 활성화를 이루려면 분명히 정책적 지원이 필요하다. 연구 데이터의 공개가 어떠한 성과물을 창출하는지 분석할 수 있는 체계 또한 필요하다. 

권 교수의 발표에서 다룬 본인의 연구 논문은 다음과 같다.

  • Incentive or disincentive for research data disclosure? A large-scale empirical analysis and implications for open science policy. International Journal of Information Management (2010)
  • Competition or diversion? Effect of public sharing of data on research productivity of data provider. (under review)
  • Dual role of data in corporate research on machine learning and artificial intelligence. (under review)

지난해 과기정통부에서 <국가연구데이터 관리 및 활용 촉진에 관한 법률 제정안>을 입법예고하였으나 21대 국회와 함께 종료되었고, 22대 국회에서는 두 건의 법률안이 의원입법으로 다시 올라온 상태이다(복기왕의원 등 23인, 박충권의원 등 11인). 지금까지 쏟아져 나온 온갖 진흥법의 구조와 많이 닮은 것은 전자이고, 다른 법에서 보호하고 있는 정보를 포함하는 국가연구데이터에 대한 공개 제한 규정을 담은 것은 후자이다. 바이오헬스 데이터와 같이 생명윤리법 또는 개인정보 보호법의 적용 대상이 되는 데이터를 위한 배려(?)로 보인다.

연구데이터와 관련한 법률이 생긴다고 모든 것이 명확해지는 것은 절대 아니다. 이미 공공데이터법(2013)과 산업 디지털 전환법(2022)이 있어서 공공데이터 및 연구데이터와도 영역 다툼을 벌여야 하기 때문이다. 예를 들어 공공데이터란 공공기관이 직무상 혹은 목적성을 가지고 생성·취득·관리하는 전자(기록)자료인데, 출연연이 생성한 연구 데이터 역시 이 범주에 당연히 들어가지 않겠는가.

일단 이러한 법률이 제정되면 몇 년 단위의 기본계획 수립(너무나 많이 보아 온 방식), 데이터 플랫폼 구축 및 운영 등 고정적으로 예산을 받을 수 있는 구조가 만들어지니 한편에서는 이를 분명히 환영할 것이다. 국내외 연구데이터 정책과 법제도 - 동향과 과제에 대해서는 STEPI의 신은정 박사가 발표하였고, 이는 연구보고서인 <연구데이터 활성화를 위한 정책방향 및 법제와 전략 연구>(김권일 외 2023.9.)로 발표된 바 있음을 밝혔다. 

이외에도 KISTI가 구축한 국가연구데이터플랫폼 DataON과 표준형 기관 연구데이터 리포지토리인 NaRDA(National Research Data Archive), 그리고 데이터 리포지토리의 인증 체계 중 하나인 CoreTrustSeal에 대한 소개도 있었다. 모든 발표를 듣느라 거의 하루를 꼬박 투자했지만 전혀 시간이 아깝지 않았다.

연구데이터 공개가 진정으로 가치를 발휘하려면 연구자의 선의에 기대하는 것만으로는 충분하지 않다. 정책이 그 빈 팀을 잘 메워 주어야 하고, 실제로 어떻게 활용되고 있는지 면밀하게 추적해서 이를 평가해야 한다. 한국사회과학자료원(KOSSDA)의 데이터 인용 캠페인인 'Cite the data'가 떠오른다.

KOSSDA 웹사이트의 팝업 창에서 '질적연구'라는 용어를 접했다. 부끄럽지만 질적연구라는 용어는 2년 전 국무조정실 규제혁신추진단에 파견을 나와서 다른 전문위원에게 처음 들었다. '당신들과 같은 논리실증주의자들은~'을 부르짖던 이 모 박사님이 생각이 난다.

KOSSDA 웹사이트의 팝업 창. 이것이 요즘 사회과학의 연구 방법론이로구나...


2024년 7월 11일 목요일

[자작곡] 호수 섬 이니스프리, 버전 1(보컬은 synth로 대신함)

「호수 섬 이니스프리(The Lake Isle of Innisfree)」는 예이츠(1865-1939)의 시로 잘 알려져 있다. 예전에는 「이니스프리의 호도(湖島)」라는 제목으로 번역되었던 것으로 기억한다. 이 유명한 시를 가사로 삼아서 멜로디를 붙였던 것이 아마 중학교 1~2학년 무렵이었을 것이다. 그때는 '호도'라는 한자어가 호수 속의 섬이라는 뜻을 갖고 있다는 것도 몰랐다. 원작은 영시라서 번역본은 몇 가지가 있을 수 있는데, 내가 당시 작곡에 참고했던 것은 지나치게 짧게 의역이 되어 있었던 것으로 기억한다. 그 번역본(참고 링크)이 멜로디를 붙이기에는 적당했을 수도 있지만, 시어(詩語)의 뜻을 정확히 모른 채로 적당히 가공하는 실수를 하였었다. 이 시를 원작에 충실하게 번역한 것으로 여겨지는 것을 하나 소개한다. 복사를 허락하지 않아서 원본 링크로 대신한다.

「이니스프리의 호수 섬」과 아일랜드의 자유와 독립

이 시에서 우리말로 옮기기 가장 어려운 곳은 다음이라고 생각한다.

And I shall have some peace there, for peace comes dropping slow,

Dropping from the veils of the morning to where the cricket sings;

나 그곳에서 얼마간 평화를 누리리라. 평화는 천천히 내리므로(방울지듯?), 아침의 베일(안개?)부터 귀뚜라미 우는 곳까지 'dropping'하는데...

중학생 시절에 가사로 삼았던 번역본에는 '그러면 내 마음 평화로우리/안개 낀 아침부터 귀뚜라미 우는 저녁때까지'라고 하였다. 이는 지나친 의역이라고 생각한다. 하지만 그도 그럴 것이, 직역을 해 놓으면 우리의 정서에 잘 맞지 않으니 번역자도 무척 고심을 했을 것이다. 이 번역자는 '아침부터 저녁까지 평화롭다'고 읽히도록 옮겨 놓았다. 그러나 원래의 의미는 이랬을 것이다.

(폭포수처럼 줄줄 흘러내리는 것이 아니라) 물방울이 맺혀 하나 둘 떨어지듯 평화가 내려오고, 그것을 나는 얼마간 누릴 것이고... 아침의 베일부터 귀뚜라미가 우는 곳까지 (평화가) 방울져 떨어지는데...

Dropping from A to B라고 표현하였으므로 A와 B는 장소 또는 위치에 해당하는 낱말이 되어야 한다. 그러나 이 시에서는 의미상 시간을 뜻하는 어구(phrase)가 차지하고 있다. 영시에서는 멋진 표현일지도 모르지만 국문으로 옮기면 의역으로도, 직역으로도 그 아름다움이 잘 전해지지 않는다. 외국어로 쓰여진 시를 번역하는 사람은 정말 위대하다!

음악을 만들고 녹음하는 취미를 새로이 시작하면서 중학생 시절에 너무나 대충 만든 이 포크송 스타일의 노래를 반드시 새로 고치겠다는 다짐을 하였고, 며칠 전에 초안의 녹음을 마쳤다. 가사는 원작에 맞게 손을 보았고 - 실은 몇 달이 걸렸으며, 아직도 계속 변경 중 - 새롭게 한 구절을 창작하여 추가하기도 하였다. 80년대 초에 만들었던 곡은 너무 짧았기 때문이다. 

기억 속에만 남아 있던 40여 년 전의 자작곡을 녹음으로 남기겠다는 결심을 하게 된 것은 어린 시절 음악적으로 많은 영감을 주고 받았던 친구 JH와 비교적 최근에 카카오톡을 하다가 문득 이 곡을 기억하고 있다는 말을 들었기 때문이었다. 그 당시에 이 곡이 들을 만하였는지, 또는 그저 그랬는지에 관한 평은 미처 듣지 못했지만, 친구의 말에 용기를 얻어서 컴퓨터를 열고 녹음에 착수하게 된 것이다. 또 다른 자작곡인 「친구 JH에게 바치는 노래(+알란 파슨스 프로젝트의 Sirius를 뒷부분에 삽입)」의 가장 마지막 작업 버전은 작년 11월에 만들어 내 블로그에 올린 일이 있다(링크). 2014년에 나를 진공관 앰프의 길로 빠져들게 해서 아직까지 여기에서 헤매게 만든 것도 바로 JH였다. 매우 다행스럽게도 요즘은 다시 대출력 반도체 앰프의 길로 돌아오고 있다. 직장 동료들과 밴드를 결성해 합주를 하려니 이동이 쉽고 튼튼하며 일정 이상의 출력을 내는 앰프가 필요하기 때문에 어쩔 도리가 없다. 

마이크로폰을 붙들고 목소리를 뽑아내기에는 아직 부족함이 있어서 sine wave로 보컬을 대신한 초안을 이 블로그에 공개한다. 내 유튜브 자작곡 목록에 올리기에는 아직 완성도가 많이 떨어진다. 보사노바 드럼 트랙은 유튜브에서 딴 것이고, 기타와 베이스 및 키보드는 직접 연주하였다. 7월 9일에 작성한 글 집단 지성을 발휘하는 올바른 방식에서 보였던 끔찍한 오디오 클립 편집 작업이 바로 이 곡에 해당한다. 사실 스케치 수준의 녹음이라서 블로그에 올리기에 민망한 면이 없지 않다. 신서사이저는 AKAI MPK mini로 대충 연주했더니 영 엉망이다. 미니 건반 특유의 불편함에, 스펀지 같은 작동으로 벨로시티를 원하는 수준으로 컨트롤하는 어려움이 더해진다. 그러나 기타릭 플레이어로 뽑은 소리는 나쁘지 않다.



조만간 일일 보컬 교습을 받은 뒤 녹음을 해 보려는 야심에 찬 계획을 가슴에 품고 있다. 원래 C 메이저였던 곡이 A 메이저가 되어서 장6도가 올라갔으니 '특별 수련'이 필요하지 않겠는가? 일반인에게는 별로 높은 곡이 아니지만, 나에게는 조금 어렵다.

2024년 7월 10일 수요일

Tracktion Waveform Free, 무엇이 달라졌나?

Tracktion Software Corporation의 Waveform FreeAudacity와 더불어 내가 가장 즐겨 사용하는 음악 작업용 소프트웨어이다. 둘 다 무료이지만 아마추어가 사용하기에는 별로 불편한 점이 없다.다. Waveform Free로 손질을 하여 유튜브에 자작곡 '2023년 광화문 광장의 여름' 을 올린 것이 벌써 4개월 전이라 사용법이 조금씩 기억나지 않는 상태가 되었다. 열심히 줄을 그어가며 공부했던 매뉴얼은 2021년 2월에 배포된 것이라서 최신 버전인 12.X와도 잘 맞지 않는 상태가 되었다.



요즘 다시 자작곡 녹음 작업을 재개하면서 Waveform에 어떤 변화가 생겼는지 확인해 보았다. Free 버전은 정식 버전을 0.5 정도 뒤쳐져서 따라가고 있는 것으로 안다. 지난 봄에 출시된 Waveform Pro는 버전 13에 해당한다. 여기에 추가된 기능은 공식 웹사이트의 글 What's New in 13을 참조하자. 오디오 또는 MIDI 클립을 엑셀 챠트와 같은 곳에 그리드 형태의 작업 창에 자유롭게 끌어다 놓고 직관적으로 작업을 할 수 있게 만드는 Clip Launcher, 새로운 컨트롤러 지원, wavetable synth 등이 추가된 기능이다. Version 13용 유저 가이드(2024)가 공개된 것도 정말 반가운 일이다.

Waveform Free는 30~50 달러에 확장 기능을 넣을 수 있게 되었다('Waveform Free Expansion'). 모든 확장 기능을 다 구입하면 Waveform Pro와 비슷해지는 것인지는 잘 모르겠다. Sound pack과 construction kit는 개당 10달러이다('Content Sound Packs'). 확장 가능한 음원을 사용하려면 Waveform Free Expansion의 하나인 MIDI Producer가 제공하는 Multi Sampler가 필요하다. 무료 VSTi 같은 것을 모으려고 애쓸 것이 아니라 이런 것을 가끔 구입하여 활용하는 것이 더 나을런지도 모른다. 

궁극적으로는 1인 아마추어 뮤지션을 꿈꾸고 있지만, 요즘은 밴드를 하면서 같이 모여서 음악을 하는 즐거움을 누리기도 한다. 분위기를 조성한 당사자가 바로 나이므로 공용으로 쓸 음향기기를 자꾸 내가 구입하는 즐거움을 요즘 자주 누리고 있다. 힘겨운 서울 출장 후 집에 돌아오니 문 앞에는 Samson XML610 파워드 믹서(중고)가 떡 버티고 있다. 드디어 12인치 PA 스피커를 충실히 구동할 앰프를 갖추게 된 것이다. Behringer Xenyx 802에 보컬용 마이크 두 개, 기타 두 대, 베이스 한 대를 연결하려고 복잡하게 고민을 할 필요가 없어졌다. 게다가 인터엠 R150Plus로는 부족했던 출력 문제를 해결해 주었고, 더불어 이펙터를 내장하고 있으니 금상첨화! 매뉴얼은 ManualsLib에서 다운로드하면 된다.

Samson XML610 12-channel stereo powered mixer. 



2024년 7월 9일 화요일

집단 지성을 발휘하는 올바른 방식

'집단 지성'이라고 하면 위키를 이용한 공동 문서 작업이 우선 떠오른다. 위키백과에서 집단 지성을 찾아 보았다.

집단 지성(集團知性, 영어: collective intelligence, group intelligence)은 다수의 개체들이 서로 협력 혹은 경쟁을 통하여 얻게 되는 결과를 말한다. 집단지성은 연구 분야의 하나이며, 누구나 수정할 수 있기에 조작과 왜곡이 되기 쉽다. 누구나 수정할 수 있는 위키들이 집단 지성의 대표적인 예시이다.

경쟁이 집단 지성을 만드는 한 요소라는 것은 처음 알았다. '경쟁심'을 갖는 것 그 자체는 나쁜 일이 아니다. 예를 들어 위키로 문서를 작성하는 작업에서 다른 사람이 쓴 것을 보고 '나도 이만큼은 할 수 있어. 아니, 더 잘 할 수 있어!'라는 생각을 갖고 더욱 노력하여 좋은 글을 더한다면, 결과적으로는 모두에게 이익이 된다.

그렇지만 지나친 경쟁은 협동을 저해하는 요인이 되기도 한다. 경쟁의 목표는 내가 상을 차지하는 것이기 때문이다. 그렇기 때문에 주변과 더욱 담을 쌓고, 타인에게 도움이 될 만한 것을 일체 공유하거나 흘리지(?) 않으려고 노력을 하게 된다. 

ChatGPT에게 집단 지성이 무엇인지 물어 보았다. ChatGPT는 경쟁과 같은 낱말은 나열하지 않았다.

집단 지성은 여러 사람들의 지식, 의견, 경험 등을 모아 하나의 문제를 해결하거나 새로운 아이디어를 도출하는 것을 말합니다. 이는 개개인의 지식과 능력을 합쳐 보다 나은 결과를 도출하는 방식으로, 공동의 지혜를 통해 복잡한 문제를 해결하거나 창의적인 해결책을 찾는 데 효과적입니다. 대표적인 예로는 위키피디아, 오픈 소스 소프트웨어 개발, 집단 브레인스토밍 등이 있습니다.

요즘 들어서 무슨 위원회나 협의체 때문에 불려 다니는 일이 많다. 한 장소에 여러 사람이 모여서 머리를 맞대고 있으니 명목상으로는 집단 지성이 발휘될 것만 같다. 그러나 모임 자체에 자발성이 없다는 것이 큰 문제이다. 집단 지성이 발휘되려면 참여한 개개인의 창의성이 중요한데, 억지로 모여서 회의실에 둘러 앉아서는 창의성이 잘 나오지 않는다. 

이 일을 통해서 사회 전반에 걸쳐 더 많은 이익을 누릴 수 있을까? 이런 목적의식을 앞에 두고 머리를 짜는 것이 아니라 위에서 던진 주제를 정해진 기한 내에 해결하여 가시적으로 성과를 내는 것이 급선무라면, 신체의 모든 구멍에서 창의성이 주체할 수 없이 흘러 나오려고 하다가 도로 들어갈 것이다. 

원래 창의성이란 업무와 관련이 없는 분야에서 활활 타오르는 법이다. 예를 들어 그저께 밤에 집에서 녹음 클립을 편집하는 것과 같은.

최근 자작곡 편집 화면(Tracktion Waveform Free 12.5)곡의 기준 템포와 관련이 없이 즉흥적으로 녹음한 기타 연주 클립을 특정 BPM에 맞추려니 이렇게 되고 말았다. 다시 연주해서 재녹음을 하면 되지만, Guitar Rig에서 우연히 찾은 쫀득쫀득한 소리를 재현할 수 있을지 자신이 없다. 어떤 기타를 썼었던가? 그것도 기억이 나지 않으려고 한다. 이 일은 철저히 개인적인 것이므로 오늘 글의 주제인 집단 지성과는 관계가 없다.


협력 의제? 그런 거 생각해 두지 않았는데....

2024년 7월 4일 목요일

대장균 C strain은 Crooks strain의 별칭이 아니었다

게놈 고물상 영업을 시작하면서 다른 사람이 10년 전에 쓴 논문에서 오타를 발견해 내고는 잠시 학문적 희열(?)을 느낀 적이 있었다. 돌이켜 보면 '누워서 침뱉기'나 다름이 없었다. 그 논문에서는 내가 공동 제1저자였기 때문이다... 그리고 부끄러운 일을 하나만 더 고백하자면 나의 경력에서 큰 의미가 있는 첫 논문에서는(당연히 내가 제1저자) 초록에 오타가 떡하니 들어간 상태로 인터넷에 박제가 되어 있다. 그것도 어떤 생명체의 학명, 즉 고유명사를 잘못 기록했으니 그 미생물에게는 매우 실례가 되는 일이다. 

오늘 이와 비슷한 나의 실수를 또 찾아내고 고해성사를 올리는 글을 써 보겠다. 연구실에서 널리 쓰이는 유명한 대장균 중에는 K-12, B, W 등이 있다. 'C' 균주는 Crooks strain의 약칭일 것이라고 짐작하고 몇 편의 논문에서 이 균주의 약칭을 잘못 쓴 일이 있다. KCTC에서 분양을 받을 때에는 KCTC 2571이라는 번호를 이용하였다. ATCC 카탈로그 번호는 8739. 박테리오파지를 사용하던 분자유전학 태동기의 실험에서 대장균 균주를 K나 B라는 이름으로 불렀으므로, 알파벳 한 글자로 이루어진 약자를 쓰는 것이 대장균 활용 업계의 관행이라는 오해가 들 만도 하다. 나는 오늘까지 내가 연구에서 사용한 균주가 C strain이라고 생각했었는데, 실제로 이는 Crooks strain이며, C strain은 전혀 다른 녀석이었다.

대장균 W strain('Waksman's strain, ATCC  9637)의 유전체 해독 및 게놈 스케일 대사 네트워크 구성 논문(BMC Genomics, 2011년)에서도 나는 열심히 454 read에서 만들어진 contig를 fosmid end read로 얽어서 스캐폴드를 만들고 열심히 finishing을 했었다. 이 논문에서도 이런 문구가 나온다. Lonnie O. Ingram 그룹에서 처음에 Crooks strain의 유전체를 해독하여 논문을 발표할 당시에 Crooks strain을 C strain이라고 표기한 것이 문제의 발단인 것으로 보인다.  

When it was sequenced in 2007, ATCC 8739 was designated as a C strain [PMID 17972330], however, it is in fact a Crooks strain [4] and recent publications have reflected this correction [PMID 19918073, 19837840]. Of these five safe strains, K-12 [11], B [12] and Crooks [GenBank:CP000946] have been sequenced, but C and W have not.

논문 공저자의 역할이 뭔가? 내가 만든 데이터로 그림과 표를 잘 만들고 이에 부속되는 본문을 잘 쓰는 것도 중요하지만, 논문 전체를 다 읽어 보면서 잘못된 것은 지적하고 미처 모르던 것을 발견하면 이를 잘 소화하여 내것으로 만들어야 하지 않는가? 만약 2011년 출판된 당시의 논문을 보다 더 세밀하게 읽었다면(게다가 나는 이 연구에 참여한 논문 공저자가 아닌가) Restrictionless strain으로도 알려진 대장균 C strain은 Crooks strain이 아니라는 것을 진작에 깨달았을 것이다. 진짜 대장균 C strain의 유전체 해독 결과는 비교적 최근이라 할 수 있는 2019년에 발표되었다(Król 등, PMID 31640553). 논문 초록을 인용해 보면 다음과 같다.

Escherichia coli C forms more robust biofilms than other laboratory strains. Biofilm formation and cell aggregation under a high shear force depend on temperature and salt concentrations. It is the last of five E. coli strains (C, K12, B, W, Crooks) designated as safe for laboratory purposes whose genome has not been sequenced.

실험 목적으로 사용하기에 안전한 다섯 대장균 균주 형제인 C, K-12, B, W, Crooks를 기억해 두자. 바로 위에서 소개한 논문을 읽어 보면 C 균주가 언제 분리되어 쓰이기 시작했는지 설명해 놓았다. 조금 더 검색을 해 보니 2018년 Microbiology Resource Announcements에 C 균주의 gapless genome sequence가 발표된 일이 있었고(Pekar 등, 논문 링크), 이 논문에 의하면 draft 수준의 최초 게놈 서열은 2016년에 GenBank accession NMKV00000000으로 발표된 일이 있었다고 한다. Król 등의 2019년 논문에서는 Peka 등의 2018년 논문을 언급하지 않았다. 알고서도 언급을 하지 않은 것인지, 또는 아예 몰랐는지? 그건 누구도 모른다.

오늘 우연한 발견으로 위장한 과거의 실수 고백은 K-BDS(국가바이오데이터스테이션)에 등록할 대장균 B 균주 관련 자료를 정리하다가 빚어진 일이다. 유전체 비교 목적으로 K-12 MG1655의 염기서열을 샅샅이 훑어본 것이 벌써 2005년도이다. 당시에 공개된 자료인 NC_000913.2의 길이는 4,639,675 bp였는데, 현재 버전인 NC_000913.3은 4,641,650 bp이다. 무려 2 kb 가까이 늘어났다. 미생물 유전체 입장에서는 실로 엄청난 업데이트에 해당한다. 2010년 이전에 이미 충분한 정확도를 확보한 상태로 데이터 베이스에 제출된 염기서열이 '고정'되었을 것으로 생각했으나 그렇지가 않다. GenBank flat file을 앞부분을 살펴보니 2013년 11월 3일에 현재 염기서열로 바뀌었다고 한다. 나중에 심층적으로 조사하고 글을 쓸 거리가 또 하나 늘어났다.

유명한 연구용 대장균 5종 세트 중 B에 속하는 BL21(DE3)와 W의 유전체를 내 손으로 해독하였으니 그것에 대해서는 자부심을 가져도 좋을 것이다. K-12 계열 중 하나인 HB101로 생각하고 잘못 구입한 RR1(HB101 RecA+)도 내가 해독하였지만 인용 회수가 별로 많지 않아서 실망스럽다.


같은 날 오후에 작성한 업데이트

2013년에 이루어진 대대적인 K-12 MG1655의 유전체 염기서열 업데이트에 관한 설명이 위스콘신-매디슨 대학의 E. coli Genome Project 웹사이트에 소개되어 있었다. 새로운 IS1 삽입이 아주 큰 이벤트였다. 관련 논문을 아직 읽어 보지는 않았기에, 이것이 최근에 일어난 IS transposion인지 또는 stock-to-stock variation을 반영한 것인지는 알 수 없다. 

Sequence update (September 26, 2013)

Monica Riley 등이 쓴 논문 Escherichia coli K-12: a cooperatively developed annotation snapshot - 2005(Nucleic Acids Research 2006, Vol. 34, No. 1, 1-9)에 이런 문구가 있다.

We refer to this outcome as a ‘snapshot’ to emphasize that information about E.coli genes and their products are a moving target, and overtaken rapidly with more recent information.

이 논문에서는 최신 유전체 주석화 성과를 '움직이는 타겟'이라고 하였지만, 염기서열 자체가 바뀐다는 것은 타겟 아래의 지면이 움직이는 것과 마찬가지의 큰 사건이다. 이 움직이는 타겟을 수십 년 동안이나 애정을 갖고서 들여다 본다는 것이 정말 대단하다. 그러한 대가들의 노력과 성과를 단 0.5%라도 따라 갈 수만 있다면 좋겠다.


2024년 7월 9일 업데이트

대장균 K-12 MG1655 유전체 염기서열의 지난번 업데이트에 관한 이야기는 2020년에 글로 작성해 둔 적이 있었다(대장균 K-12 MG1655의 유전체 서열 히스토리). 지금 다시 읽어보니 왜 이렇게 새롭게 느껴지는 것일까?


2024년 7월 1일 월요일

ChatGPT가 내 블로그의 자료까지 거두어 가서 학습을 하는 것 같다

따라서 나는 정확한 내용에 기초한 글을 작성할 사회적 책임이 있다? 

ChatGPT에게 "NCBI SRA에는 인간 유전체 정보가 얼마나 수록되어 있습니까?"라는 질문을 던져 보았다. SRA의 자료는 특별히 다운로드하는데 제한을 걸지 않으므로, 1000 Genomes Project와 같이 아예 공개할 목적으로 생산한 정보 외에는 sequencing raw data가 별로 없을 것이라고 생각하였다. 그런데 답변이 아주 흥미롭다.



아니, 내 블로그를 참조하여 답안의 일부를 작성했단 말인가? 답변 중  NCBI 및 NCBI Trace는 마우스를 가져가서 클릭하면 해당 URL로 이동한다. 그러나 내 블로그 링크는 그렇지 않았다. 블로그에 작성된 특정 글이 아니라 블로그 타이틀 자체를 인용하였는데, 아쉽게도 연결은 되지 않는다. 

기분이 정말 묘하다. 어차피 공개된 공간에 글을 쓴다는 것은 누구든지 그 글을 읽고 지식으로 삼을 수 있다는 뜻이다. 따라서 되도록이면 정확한 사실에 근거하고 어느 한편으로 치우침이 없는 글을 쓰는 것이 중요하다. 

구글 검색 엔진이 내 블로그의 글을 가져다가 검색 결과로 보여주는 것에 대해서는 별다른 저항감이 없다. 그러나 ChatGPT가 대답을 하기 위한 학습용 데이터로 사용하리라고는 생각하지 못했다. 내가 허락하지 않았는데 왜 가져다 쓰냐고 불평을 하는 것은 아니다. 글 하나에 대해서 단돈 1원이라도 받고 써야 한다고 주장하는 것도 아니다. 어차피 나도 구글을 별로 큰 돈 들이지 않고 이용하고 있지 않은가. 어차피 누군가 검색하여 읽고 활용할 것으로 기대하고 세상에 도움이 되기를 바라는 목적으로 글을 쓰고 있으니까 말이다.

마치 학술논문과 같이 인용한 자료에 대한 URL을 제공하는 것은 객관성을 보장하기 위한 ChatGPT 나름의 보완책이라고 여겨진다. 이를 잘 이용하면 개인 브랜드를 널리 알리는 데에 도움이 될지도 모르겠다. 그러나 노이즈 마케팅이 이런 분야에 통할 리는 없다. 

미처 모르던 사이에 세상이 참 많이 변했다.