2017년 8월 18일 금요일

커피용품 구입 - 드립포트와 탬퍼

드디어 오랜 숙원사업을 해결하였다. 0.7 리터 들이 핸드드립용 포트와 탬퍼(직경 50 mm)를 구입한 것이다. 핸드드립이면 핸드드립이고 에스프레소면 에스프레소지 왜 서로 어울리지 않는 물품을 같이 구입한 것일까?


지난달에 아들이 선물로 사준 가정용 에스프레소 머신(구글플러스 포스트)이 연이은 쇼핑의 출발점이 되었다. 에스프레소에 적합한 수준의 고운 커피가루를 낼 수 있는 전동 그라인더(드롱기 KG79)에 이어서 에스프레소 머신에 기본으로 갖춰져 있으나 너무나 부실한 플라스틱 탬퍼를 대체할 물건까지.

이것이 전부가 아니다. 원래 핸드밀로 커피를 직접 갈아서 드리퍼에 내려 마신지는 꽤 오래 되었다. 속이 좀 부담스럽다 싶으면(위장이 별로 좋은 편이 아님) 한동안 끊었다가, 단맛이 끌리면 커피믹스만 먹다가를 반복하다가 이번에 에스프레소 머신을 장만하면서 핸드드립을 좀 더 제대로 하겠다는 욕심이 생겼다. 그동안은 드립포트가 없어서 전기포트로 물을 끓인 뒤 직접 내렸기 때문이다. 드립포트가 꽤 비싼 물건이라고만 생각하고 있었는데 이번에 탬퍼를 고르면서 인터넷을 뒤져보니 적당한 가격대의 것들도 꽤 많아서 주저함 없이 함께 구입을 하게 된 것이다. 이러다가 온도계까지 사게 되는 것은 아닌지 모르겠다.

에스프레소 커피보다는 핸드드립커피를 만들 때 더 많은 변수가 존재하는 것 같다. 사람마다 내리는 방식이 다 다르겠지만 몇 가지 원칙은 지키면서 나만의 방법을 확립해 나가야 되겠다. 가령 커피가루의 일정한 분쇄 정도 유지, 30초간 불리기, 드립 총 시간 지키기(3분) 등이다. 유튜브에 워낙 많은 핸드드립 동영상이 있으니 지금까지처럼 대충 만들지 말고 제대로 한번 해 보련다.

2017년 8월 16일 수요일

숫자가 크게 나오는 카시오 전자시계는 무엇이 있을까?

지난주에 구입한 카시오 G-Shock DW-5600(블로그 글 링크)는 가격도 저렴하지만 가볍고 기능적으로 손색이 없는 매우 튼튼한 손목시계이다. 200 미터 방수가 되는 이 시계를 착용한 채로 이제는 샤워를 하거나 물놀이를 해도 안심이다.

며칠 동안 사용하면서 느낀 불편한 점이 딱 한가지가 있으니, 바로 숫자 표시가 약간 작다는 것이다. 지구상에 존재하는 무수한 전자손목시계와 비교하여 더 작다는 것은 결코 아니다. 매우 표준적인 크기의 액정 디스플레이를 갖고 있지만 이제 본격적인 노안에 직면한 나에게는 돋보기 안경을 쓰지 않은 상태에서 시각을 확인하기가 아주 조금 불편하다. 어떤 면에서는 잘 디자인된 아날로그 시계의 시인성이 훨씬 낫다고도 할 수 있다. 대신 맨눈으로 아날로그 시계에 마련된 날짜와 요일을 읽는 것은 매우 어렵다.

숫자가 조금 더 크게 표시되는 전자손목시계는 무엇이 있나? 카시오의 지샥 제품군에는 썩 마음에 드는 것은 없다. TIMEX에서는 Ironman 시리즈에 이러한 시계가 많다. 열심히 달리는 도중에 시각을 확인하려면 당연히 숫자가 크게 표시되는 시계가 유리하다. 하지만 일상생활용으로는 너무 튀는 디자인이다. 구글에서 digital watches with large numerals라는 검색어로 찾으면 숫자가 크게 나오는 시계를 많이 만날 수 있다. 그러나 알려지지 않은 브랜드가 많아서 그다지 내키지는 않는다. 이 검색어가 완벽한 것도 아니다. 왜냐하면 아날로그 시계이면서 숫자 자체가 큰 것들도 섞여서 나오기 때문이다. 이런 것은 내가 원하는 것이 결코 아니다.

기왕에 맛을 들인 카시오 제품 중 점잖은 모양을 갖춘 것으로 숫자가 크게 표시되는 것은 무엇이 있을까?

A178WA. 바로 이거다! 카시오의 클래식 라인 제품 중 하나다. 방수나 충격 방지와는 거리가 먼 일반용 시계라서 가격은 지샥보다 훨씬 싸다. 정장용으로도 손색이 없는 시계다. 시곗줄은 당연히 통줄이 아니다. 일명 '손석희 시계'로 알려진 A168WA와 매우 유사하다. 위로 잡아늘인듯한 숫자가 좀 어색할 수도 있다. 디자인 측면에서는 A168WA가 더 완벽하다고 생각한다.
그림 출처: http://www.casio.com/products/watches/classic/a178wa-1av
A178WA의 숫자 표시가 다른 표준적인 전자손목시계에 비하여 월등히 큼은 명백하다. 그러나 검색을 통해서 찾은 다음 모델들(스포츠 시계에 가깝다)은 어디까지나 웹브라우저를 통해서 판단한 것이므로 실물은 어떠할지 알 수 없다. 흥미로운 것은 오늘 소개한 6종의 카시오 시계는 전부 10년 사용 가능한 전지를 쓴다는 사실이다. 그 원리가 무엇인지 매우 궁금하다. 링크는 전부 카시오 미국 사이트에서 딴 것이다.
  • W96H(카시오 한국어 사이트에서는 W-96H로 소개되었고 이하 같음)
  • W201(카시오 한국어 사이트에는 없음)
  • W800H
  • HDD600
국내의 지타임코리아 사이트를 검색하면 나오는 F-200W는 카시오 미국 사이트에는 없는 모델이다. 

그러면 또 시계를 사려고...? 그건 아니다. 올해에는 이미 세 개나 되는 시계를 사지 않았나? 내년쯤 생각해 볼 이이다.

Roary에서 Harvest suite를 거쳐 NASP(North Arizona SNP Pipeline)에 이르기까지

하나의 종(species)에 속하는 박테리아의 유전체로부터 얻은 시퀀싱(또는 조립물) 결과를 서로 비교하는 일은 요즘 매우 흔한 분석 작업이 되었다. 특히 유전체역학(genomic epidemiology)에서는 필수적인 과정이다. 구글에서 genomic epidemiology라는 검색어를 넣으면 가장 먼저 뜨는 웹사이트는 덴마크 공과대학(Technical University of Denmark)의 Center for Genomic Epidemiology이다. 이 연구센터에서 중점을 두는 것은 당연히 감염병을 일으키는 박테리아이다. 물론 용어의 해석 범위에 따라서는 인간 유전체를 중요시하는 입장도 가능하다(서울대학교 보건대학원 유전체역학 연구실 웹사이트 참조).

역학(疫學)이란 인구집단에서 병원 원인을 연구하는 학문이다. 물리학의 한 분야인 力學, 주역의 괘를 해석하여 음양 변화의 원리와 이치를 연구하는 학문인 易學(이것이 진정한 학문인가?)과는 다르다. 우연히 발견한 글인 역학자가 노벨상을 받을 수 없는 이유도 한번 읽어보자.

감염병의 역학조사와 병원체 genome sequence를 어떻게 연결하여 감염성 질환에 대처할 것인가? 이에 대해서는 2014년 Genome Biology에 실렸던 리뷰 논문인 Epidemiologic data and pathogen genome sequences: a powerful synergy for public health를 참조하자. 이 논문에 의하면, 감염병을 연구하는 역학자의 기본 질문은 이러하다.

  1. Is there an outbreak?
  2. Where, when and how did a pathogen enter the population of interest?
  3. How quickly is the number of infections from the pathogen growing (that is, what are the epidemic dynamics)?
  4. How is the pathogen spreading through the population?
  5. What genes or genotypes are associated with the pathogen's virulence or other phenotypes of interest?

Pathogen genomics는 이러한 질문에 대해 답을 할 수 있는 매우 중요한 근거를 제시한다. 물론 오늘의 포스팅에서는 더 깊게 논의하지는 않겠다.

내가 다수의 병원체 샘플에 대한 whole-genome sequencing data를 이용한 분석, 즉 genotyping(SNP-based라고 좁혀서 이야기해도 좋다)과 resistance gene finding 등을 실무에서 처음 접하게 된 것은 작년 하반기였다(참고로 Sanger sequencing은 1991년 무렵, 대용량 genome sequencing은 2000년부터 해 왔음). 당시에는 결핵균의 일루미나 시퀀싱 raw data가 출발점이었다. Reference mapping 기반의 방법과 assembly 기반의 방법 사이에서 고민을 하다가 결국은 일본에서 개발한 TGS-TB(Total Genotyping Solution for Mycobacterium tuberculosis, 현재 버전 2)라는 매우 유용한 웹사이트를 찾아내는 것으로 일단락되었다. 그러나 이 작업 중에 CLC Genomic Workbench의 Microbial Genomics Module(typing and epidemiology 기능)을 구입하게 되었고, Sanger Institute의 Roary라는 도구도 알게 되었다.

Roary는 원래 pan genome 분석을 위한 도구이다. 유전자의 염기서열을 포함하는 GFF3 파일을 input data로 하여(즉 annotated genome sequence가 필요) core gene과 accessory gene을 집계하고, 이로부터 multiple sequence alignment까지를 해 준다. 다양한 2차적인 플롯을 만들 수 있는 중간 결과물도 제공하는 것이 특징이다. 단, sequencing raw data는 다루지 못한다. SNP을 추출하거나(snp-sites) phylogenetic tree를 그리는 일(fasttree)은 별도로 실시해야 한다.

다음으로 알게 된 소프트웨어는 매릴랜드 대학교의 Harvest suite이다. 이것은 core genome alignment와 visualization까지를 할 수 있다. 입력물은 assembled genome sequence로서  annotation은 필요하지 않다. 분석에 투입할 유전체는 >=97% ANI를 충족하는 가까운 것들이어야 한다. MUM에 기반한 locally collinear block(LCB) 계산 및 SNP 검출을 해 주기에 실행 속도가 매우 빠른데, Parsnp(rapid core genome multi-alignment) 커맨드 한 줄로 모든 분석이 끝난다. 더욱 좋은 것은 Gingr이라는 visualization tool이 포함된다는 점이다. 다음은 시험적으로 생성한 분석 결과이다. 왼쪽에는 SNP-based tree가, 오른쪽에는 SNP map이 보인다.


Gingr은 standard alignment format을 수용하는 일반적인 용도의 viewer로도 쓰일 수 있다. 패키지에 포함된 harvesttools를 병용하면 사용하여 다음과 같은 다양한 파일 포맷간의 전환이 가능하다. 
그림 출처: http://harvest.readthedocs.io/en/latest/content/gingr/types.html
마지막으로 살펴볼 것은 North Arizona SNP pipeline, 즉 NASP이다. 이 도구는 raw sequencing read와 assembly를 가리지 않고, 다양한 aligner와 SNP caller를 활용할 수 있으며, monomorphic 및 polymorphic site를 검출 가능하고, job management system을 채용하는 것을 특징으로 한다. NASP는 2016년에 bioRxiv에 먼저 공개되었다가 신생 학술지인 Microbial Genomics(MGen)에 같은 해 출간되었다. 그러나 내 눈에 뜨인 것은 이틀전이다.

만약 long read data가 input data라면 어떻게 할 것인가? 가능하다면 오류가 적은 genome assembly를 만들어서 적당한 pipeline에 투입하는 것이 바람직할 것이다. 이제는 long read를 만들어내는 기술이 PacBio이 유일한 것이 아니라 Oxford nanopore sequencing까지 늘어났으니 점점 공부할 것이 많아진다...

2017년 8월 13일 일요일

여름 휴가 동안 읽은 책


리모델링을 마치고 재개장한 도서관 자료실에서 신간 서적을 고르는 것은 언제나 즐거운 일이다. 이번 여름 휴가 동안 읽으려고 대여한 책을 오늘 반납하기 전에 이에 대한 기록을 남겨두려 한다. 우리지역 도서관에서는 한 사람이 다섯 권의 책을 2 주 동안 대출할 수 있다(대출과 대여의 차이). <큐레이션>에 대해서는 지난번 글 면도기 큐레이션에서 잠시 소개하였었다.

<검색, 사전을 삼키다(정철 지음)>은 네이버, 다음을 거쳐서 카카오에서 웹사전을 만드는 편찬자의 글이다. 웹 서비스를 제공하는 회사에서는 기존에 만들어진 사전 컨텐츠를 가져다 가공을 하여 대중에게 제공한다. 그러나 이는 사전의 개정판을 만드는 일 - 표제어를 고르고, 새로 부여된 의미를 부여하는 등 - 과는 다른 일이다. 종이사전은 말할것도 없고 잠깐 동안 학생들의 필수품이 되었던 전자사전도 이제는 완전히 물러났다. 이제 누구에게 뭔가를 물어본다는 것은 실례가 되는 시대가 되고 말았다. 일단 휴대폰을 꺼내서 '검색'을 먼저 해 보면 웬만한 어위에 대한 뜻은 다 나오니까 말이다. 그러나 웹 어학사전에 내가 찾는 단어의 뜻이 나온다고 해서 안심해서는 안된다. 왜냐하면 현재 통용되는 뜻을 충실히 반영하도록 항상 개정된 상태의 정보가 아닐 수도 있기 때문이다. 검색이 사전을 삼켰지만, 잡아먹힌 그 날로 '죽은' 사전을 그대로 유통해서는 안된다. 그러나 경제 논리를 따르자면 현실적으로 어려운 점이 무척 많다. 상세하게 소개된 어학 및 백과사전의 역사와 현실, 그리고 문제점을 파악하게 해 준 좋은 책이었다.

<위험한 역사시간(이주한 지음)>은 '우리 역사를 외면하는 한국사 교과서의 실체를 밝힌다'라는 부제가 붙은 책이다. 그 동안 식민사관에 대해서 어렴풋한 관심은 있었지만 책을 통해서 심도있게 들여다 본 일은 없었다. 해방 이후 어떤 사학자들이 소위 어떤 인물들에 의하여 '강단사학'이 형성되고 우리 역사에 대한 어떠한 부정적인 유산을 남겼는지를 이제 알 수 있었다. 물론 이 저자가 주장하는 바에 대해서 부정적인 시각이 없는 것은 아니지만 우리 역사의 여명기를 반드시 한반도 안으로만 좁혀서 생각하는 것은 옳지 않을 수도 있다.

원래 한반도에는 구석기 시대가 없다는 것이 통념이었다. 그러다가 공주 석장리 유적이 발굴되면서 우리나라에도 구석기 시대에 사람이 살았다는 것이 밝혀졌다. 하지만 어디에선가 읽은 글에서는 석장리 시대에 살던 사람이 현재 우리나라 사람의 조상이 아니라고 하였다. 그러나 그렇게 보는 합리적인 근거가 있는가? 이주한의 책을 살펴보면 그 사람들이 멸망했거나 다른 곳으로 이주했다는 증거가 발견되지 않는 이상 과거에 이 지역에 살던 사람들이 계속 이 곳에 살아남았다고 보는 것이 타당하다고 밝혔다. 이 땅에 오래 전부터 사람이 살았고, 그 사람들이 세계 다른 어느곳과 견주어 뒤떨어지지 않은 (앞선 상태라면 더욱 좋을 것이다) 문명 수준을 갖고 있기를 바라는 것은 매우 자랑스런 현상이나, 이는 합리적인 가설, 그리고 유물과 유적을 통한 철저한 검증을 통해 뒷받침되어야 할 것이다.

<스노든 게이트: 원제 No place to hide(글렌 그린월드 지음, 박수민 및 박산호 옮김)>는 정말 충격적이었다. 911 테러 이후 자국민 보호를 앞세운 미국 국가안보국 NSA는 전세계를 대상으로 무차별적인 정보 수집을 실시하였고('프리즘 프로젝트'), 이는 젊은 기술자 에드워드 스노든의 용감한 폭로에 대해 세상에 드러나게 되었다. 인권이든 자유든 죽은 뒤에는 아무런 소용이 없다는, 소위 애국자법의 옹호자들에 대해서 우리는 무엇을 주장해야 하는가? 컴퓨터에 보안 프로그램을 설치하는 것조차 어려워하던 저널리스트가 어떻게 하여 내부 고발자를 만나서(이는 자신과 접촉하려면 보안을 위해 컴퓨터에 여러 프로그램을 깔라고 하였었다) 온갖 위협 속에 이를 기사화하게 되는지, 보수 언론과 정부는 이를 어떻게 방해하는지(심지어 저자의 동성 배우자를 테러와 관련된 얼토당토않은 이유를 내세워 공항에서 억류하기까지 하였다) 그 과정을 긴박감 속에 잘 묘사하였다. 언론정보학을 전공하는 아들에게도 꼭 읽어보라고 권하고 싶은 책이다.

2017년 8월 10일 목요일

카시오 G-SHOCK 손목시계(DW-5600E)를 구입하다


오늘 구입한 카시오 DH-5600(왼쪽)과 평소에 즐겨 착용하는 오리엔트 FEM7P007B9.
지난 주말, 실로 오랜만에 계룡산 동학사 계곡을 찾아 더위를 식혔다. 울창한 숲길은 그 자체로도 시원하지만, 계곡으로 내려가서 손과 발을 물에 담그고 있노라면 자연 그대로의 에어콘이 따로 없다는 생각이 든다. 물놀이를 하면서 아쉬웠던 것은 갖고있는 손목시계는 방수 기능이 충분하지 않아서 손을 물에 적시기 전에 시계를 풀어야 했다는 점이다.

시계의 방수 성능에 대해서 알기 쉽게 정리한 글이 있어서 소개해 본다. 무려 10년 전의 글이다!

30미터 방수 시계인데도 왜 물이 샐까? - 시계의 방수에 대해

나에게는 30 m 방수와 50 m 방수가 되는 시계가 각각 하나씩 있고, 20년을 넘게 차면서 이제 방수 성능을 보장하지 못하는 오래된 것도 두개 쯤이 있다. 물론 오래된 것 중의 하나는 결혼 예물 시계이다. 험악한 환경에서 부담없이 찰만한 저렴한 시계를 하나 구입하는 것이 좋겠다는 결론을 내리고 인터넷 검색에 들어갔다. 우레탄 시계줄이 달린 전자시계가 가장 적당해 보였다.

꽤 오랫동안 TIMEX Ironman Triathlon을 착용한 적이 있다. 아래 사진은 예전 포스팅 '시계는 사도 시간은 살 수 없네'에서 소개한 2014년 당시의 내 시계들이다. 여기에서 세번째에 위치한 물건이 바로 Ironman이다. 본체의 코팅이 다 벗겨지고 지금은 겉부분의 플라스틱이 다 삭아서 뜯겨져 나갔다. 그럼에도 불구하고 사용하는 동안 이 시계의 만족도는 매우 높았다. 오랫동안 쓰면서도 시계줄은 한번도 끊어지지 않았었다. 카시오 손목시계를 몇 번 사용하면서 주기적으로 끊어진 시계줄을 갈아주어야 했던 것에 비하면 매우 의외의 경험이었다.


마구 굴리는 용도라면 전자시계를 능가할 것이 없다. 이번에는 어느 회사의 제품으로 할까? 카시오 지샥(G-Shock) DW-5600 시리즈가 내 눈에 들어왔다. 카시오의 연구원인 이베 키쿠오가 부모님으로부터 선물로 받은 손목시계를 떨어뜨려서 완전히 부숴진 것을 보고 충격에 강한 시계를 만들었다는 결심을 하여 1981년 개발에 착수, 1983년 첫 출시를 한 것이 지샥의 시작이라고 한다. 내충격성과 200 m 방수라면 나의 용도로는 충분하다. DW-5600은 기본형 모델('Standard Digital')로서 다른 지샥 제품보다는 크기가 가장 작은 편에 속해서 부담이 없다. 디자인 역시 지나치게 튀지 않아서 정장이든 캐쥬얼이든 어떤 복장과 상황에서도 무난히 어울리는 모델이다. 지샥은 5600으로 시작해서 결국은 5600으로 돌아간다는 말도 있지 않은가? 조금 더 투자하면 기능도 많고 획기적인 디자인의 시계를 고를 수도 있지만 대부분 본체 직경이 50 mm를 훌쩍 넘어가서 부담스러웠다. 시계가 너무 크면 겨울에 손목부분이 조여지는 겉옷을 입을 때 무척 불편하다. DW-5600과 마지막까지 각축을 벌였던 모델은 G-9100('Gulfman')이었다. DW-6900와 DW-9052도 유력한 후보였었다.  지나치게 크거나 표시가 복잡하고 비싼 것은 당초에 고려 대상이 아니었다.

시계의 크기가 아담한 대신 가장 고민스러웠던 것은 요즘 노안이 심하게 와서 숫자가 잘 보일까 하는 점이었다. 정말 잘 한 결정일까? 직접 물건을 보고 구입하는 것이 아니라서 약간의 모험을 하지 않을 수는 없는 터였다. 이틀 전 인터넷으로 주문하여 오늘 드디어 물건을 받았다. 검은색 종이 상자를 여니 독특한 디자인의 원기둥형 캔 안에 시계가 들어있었다. 아담한 크기와 단순한 사용법이 매우 마음에 들었다(3229 모듈 설명서 PDF 파일). 그러나 표시되는 숫자의 크기가 약간 작다. TIMEX Ironman에 비하면 시인성이 숫자 크기가 확연히 작다. 윗면에 인쇄된 글자들은 어차피 제대로 보이질 않는다.

다음에는 돌핀 시계(공식 공급처)를 한번... 돌핀 시계에 대한 추억은 없지만.


2017년 8월 9일 수요일

이미지로만 구성된 이메일 메시지 혹은 웹콘텐츠의 문제점

간혹 업무용 메일 계정을 통하여 학술행사 안내문을 받는다. 연구를 주요 업무로 하고 있으니 유익한 행사는 아닌지 눈여겨보게 된다. 예를 들면 이런 것이다. 어제 받았으니 아주 최신의 것이다.

보기에는 매우 좋다. 인쇄하여 우편으로 배포할 안내문의 원본 이미지를 적절히 줄여서(아마 실제 인쇄용으로 쓰이는 AI 파일 등은 해상도가 높아서 그대로 보내면 너무 크게 보일 것으로 생각된다) 이메일로 발송한 것으로 여겨진다. 그러나 무엇이 문제인가? 메일의 내용을 검색하지 못한다는 것이다. 만약 우편함에서 나중에 이 메시지를 찾으려면 메일의 제목 혹은 발송자 이름(주소)만을 대상으로 검색이 이루어질 것이다. 발표자나 제목 등은 검색을 하지 못한다.

전세계 최고 수준의 인터넷 속도를 자랑하는 나라에서 이메일이나 웹페이지 내용에 이미지가 많은 것은 별로 문제가 되지 않는다. 하지만 이미지에 담긴 텍스트를 찾아서 검색하는 기술이 아직 보편적이지 않은 실정에서 지나치게 이미지로만 만들어진 콘텐츠는 문제가 있다고 본다.

옥션, 11번가, 지마켓 등에서 상품의 상세설명 페이지를 클릭해 보자. 화려하고 상세한 이미지와 설명... 그러나 모든 텍스트는 전부 이미지에 박혀있는 상태이다. 심지어 여러 판매자가 같은 상품을 파는 경우 상세설명 이미지 역시 동일한 경우가 많다. 아마 제품 공급처에서 전문 디자이너를 통해서 만든 이미지를 복수의 판매자에게 그대로 제공한 것일게다.

'우리나라에는 이러한 문제가 있는데 외국은 그렇지 않다'라는 분위기의 글을 쓰는 것이 참 싫다. 시각에 따라서는 그게 문제가 아니라 우리나라의 현실에 따라 최적화 된 결과일 수도 있기 때문이다. 

이러한 불편한 마음을 갖고서 이번에는 이베이를 접속해 본다. 다 그런 것은 아니지만, 이미지는 이미지요 텍스트는 텍스트이다. 잘 디자인된 아름다운 브로셔를 컴퓨터 화면에서 그대로 보듯이 나타내주지는 않으니 웹페이지 내에서 특정 단어를 찾는 것이 아주 용이하다.

당초에 설정한 제목과는 약간 멀어지더라도 하고 싶은 말을 해야 되겠다. 보기에 좋은 것(엄밀히 말하면 윗사람이 흡족해하면서 'OK'할 가능성이 높은 형식의 문서)을 만드는데 우리 스스로가 너무 길들여진 것은 아닐까? 이러한 의도가 가장 극명하게 나타나는 것은 공문서가 아닐까 싶다. 공문서는 화려함과는 거리가 멀다. 하지만 큰 글씨(나도 노안이 오다보니 이건 반갑다), 지나치게 많은 표(효과는 어느 정도 있으나 작성자에게는 부담이 된다), 짧은 포인트 위주의 개조식 문체 등. 그리고 현재 통용되는 공문서의 형식 자체도 난 마음에 들지 않는다. 컴퓨터 앞에 앉으면 이미 만들어진 HWP 문서 양식을 열어야 되는 공무원에게는 물론 선택의 여지가 없을 것이다.

최종 결재자 - 물론 돈을 지불하는 사람으로서의 정당한 권한 내의 일이라면 할 말은 없지만 - 의 마음에 들 문서를 만들 것이 아니라, 실제로 그 문서를 최종적으로 읽을 사람의 편의성을 생각하는 문서 작성을 위해 노력하는 것이 더 나을 것이다.

2017년 8월 8일 화요일

PacBio의 HDF5 raw data file을 NCBI SRA에 등록하는 요령

일루미나 장비에서 생산한 sequencing raw data(fastq file)을 SRA에 올리는 일은 하도 여러번 경험을 해서 과장을 좀 보태면 눈을 감고도(!) 할 수 있을 수준이 되었다. 반면 PacBio의 raw data를 등록하려면 약간의 요령이 필요하다. 장비에서 제공하는 데이터 파일의 구성이 다른데다가 이를 전부 다 SRA에 밀어넣을 필요가 없기 때문이다. 오늘의 포스팅에서는 이를 정리하여 보고자 한다.

먼저 PacBio의 GitHub 사이트에서 제공하는 문서 Submitting PacBio data to the SRA를 읽어보는 것도 좋을 것이다. SRA submission에 대해서 아직 개념을 잡기 어려운 상태라면 NCBI가 제공하는 공식 문서인 SRA Submission Quick Start를 먼저 정독해 보자. 다른 submission과 달리 SRA가 약간 혼동스런 이유는 아마도 제출을 위한 창구가 두 곳 존재한다는 것일지도 모르겠다. 첫번째는 submission portal을 통한 것(아마도 이것이 공식 창구에 해당할 것이다), 그리고 두번째로는 SRA submission tracking and management 웹페이지를 통한 것이다. 후자에서는 상세한 데이터의 추가와 수정 등이 가능하다. 만약 하나의 library에 대한 multiple run 결과를 제출하고자 한다면 후자의 웹사이트를 쓰는 것이 바람직할 것이다. 대신 첫번째 사이트는 metadata file을 이용하여 자료 특성을 기술한 뒤 실제 파일을 업로드하게 되어있다.

시퀀싱 센터에서는 보통 하나의 SMRT cell에 대하여 하나의 zip file로 묶은 결과물을 제공한다. 압축을 풀면 다음과 같이 두 개의 파일과 Analysis_Results라는 서브디렉토리가 생긴다. 파일 이름의 앞부분에 붙어있는 매우 긴 문자열은 하나의 SMRT cell에서 유래한 모든 파일에 대해서 동일한데 이를 여기에 일일이 쓰는 것은 번거로우므로 "RUN_ID'로 치환하였다.
RUN_ID_s1_p0.mcd.h5
RUN_ID_s1_P0.metadata.xml*
RUN_ID의 실제 사례:  m150614_005233_42244_c100830662550000001823182410291540

그러면 Analysis_Results 서브디렉토리로 내려가 보자. 여기에는 총 10개의 파일이 있다. 모든 것들을 총괄할 것처럼 보이는 .bas.h5 파일이 하나, 그리고 .bax.h5 + .subreads.fasta + .subreads.fastq 파일이 총 세 묶음 존재한다.
RUN_ID_s1_p0.1.bax.h5*
RUN_ID_s1_p0.1.subreads.fasta
RUN_ID_s1_p0.1.subreads.fastq
RUN_ID_s1_p0.2.bax.h5*
RUN_ID_s1_p0.2.subreads.fasta
RUN_ID_s1_p0.2.subreads.fastq
RUN_ID_s1_p0.3.bax.h5*
RUN_ID_s1_p0.3.subreads.fasta
RUN_ID_s1_p0.3.subreads.fastq
RUN_ID_s1_p0.bas.h5*
이렇게 많은 파일 중에서 실제로 SRA 등록에 필요한 것은 .metadata.xml, .bas.h5, 그리고 3 개의 .baxh5 파일이다(별표로 표시). 이 파일의 이름들을 다음의 SRA metadata file에서 filename, filename2, filename3...에 기재하면 된다. 5개의 파일을 하나로 묶어서 압축을 하여 .tar.gz을 만들어서 업로드해도 된다. 아마도 Illumina paired read의 제출 시에는 filename에 READS_1.fastq를, filename2에 READS_2.fastq를 지정했었을 것이다.