2024년 7월 1일 월요일

ChatGPT가 내 블로그의 자료까지 거두어 가서 학습을 하는 것 같다

따라서 나는 정확한 내용에 기초한 글을 작성할 사회적 책임이 있다? 

ChatGPT에게 "NCBI SRA에는 인간 유전체 정보가 얼마나 수록되어 있습니까?"라는 질문을 던져 보았다. SRA의 자료는 특별히 다운로드하는데 제한을 걸지 않으므로, 1000 Genomes Project와 같이 아예 공개할 목적으로 생산한 정보 외에는 sequencing raw data가 별로 없을 것이라고 생각하였다. 그런데 답변이 아주 흥미롭다.



아니, 내 블로그를 참조하여 답안의 일부를 작성했단 말인가? 답변 중  NCBI 및 NCBI Trace는 마우스를 가져가서 클릭하면 해당 URL로 이동한다. 그러나 내 블로그 링크는 그렇지 않았다. 블로그에 작성된 특정 글이 아니라 블로그 타이틀 자체를 인용하였는데, 아쉽게도 연결은 되지 않는다. 

기분이 정말 묘하다. 어차피 공개된 공간에 글을 쓴다는 것은 누구든지 그 글을 읽고 지식으로 삼을 수 있다는 뜻이다. 따라서 되도록이면 정확한 사실에 근거하고 어느 한편으로 치우침이 없는 글을 쓰는 것이 중요하다. 

구글 검색 엔진이 내 블로그의 글을 가져다가 검색 결과로 보여주는 것에 대해서는 별다른 저항감이 없다. 그러나 ChatGPT가 대답을 하기 위한 학습용 데이터로 사용하리라고는 생각하지 못했다. 내가 허락하지 않았는데 왜 가져다 쓰냐고 불평을 하는 것은 아니다. 글 하나에 대해서 단돈 1원이라도 받고 써야 한다고 주장하는 것도 아니다. 어차피 나도 구글을 별로 큰 돈 들이지 않고 이용하고 있지 않은가. 어차피 누군가 검색하여 읽고 활용할 것으로 기대하고 세상에 도움이 되기를 바라는 목적으로 글을 쓰고 있으니까 말이다.

마치 학술논문과 같이 인용한 자료에 대한 URL을 제공하는 것은 객관성을 보장하기 위한 ChatGPT 나름의 보완책이라고 여겨진다. 이를 잘 이용하면 개인 브랜드를 널리 알리는 데에 도움이 될지도 모르겠다. 그러나 노이즈 마케팅이 이런 분야에 통할 리는 없다. 

미처 모르던 사이에 세상이 참 많이 변했다.

댓글 없음: