정해영의 블로그 - JEONG Haeyoung's blog: 2008

2008년 11월 25일 화요일

Two new words coined by me - "genomebug" or "genome rat"

온라인상에서 내가 종사하고 또 즐기는 일과 관련하여 지을 별명으로서 무엇이 적당할까 고민하다가 두 가지 단어를 떠올리게 되었다.

genomebug (shutterbug를 연상하라)
genome rat (gym rat를 연상하라)

google을 뒤져 보았으나 이런 글은 존재하지 않는다. 따라서 내가 만든 신조어임을 세상에 공표하노라! 하하하...

Two new words were coined by me today, "genomebug" and "genome rat", to describe myself enjoying and working on genomics. So far, I could not find any search result on Google using these words (Nov 25, 2008). Anybody can easily understand the meaning of these words ... based on "shutterbug" and "gym rat."

I prefer the first one (genomebug), and have created an email account from Gmail.

2008년 6월 18일 수요일

454/Sanger hybrid assembly에 대한 간단한 논문

공개된 소프트웨어 도구를 이용하여 454/Sanger data의 혼합 유전체 서열단편 합체를 하는 일반적인 전략을 다루는 간단한 논문을 국내 학술지에 투고중이다. 이 과정에 대하여 궁금해 하는 사람들이 많아서, 복잡한 내용은 아니라 하더라도 어떤 형태로든 발표를 하고 싶었었다. 좋은 결과가 나오기를! 한국유전체학회의 국내 저널에 실렸다. PDF 파일을 임의로 웹에 게시할 수는 없으므로 초록을 포함한 서지 정보만 수록하도록 한다. Haeyoung Jeong and Jihyun F. Kim Genomics & Informatics 6(2) 87-90, 2008 An optimized strategy for genome assembly of Sanger/pyrosequencing hybrid data using available software. During the last four years, the pyrosequencing-based454 platform has rapidly displaced the traditional Sangersequencing method due to its high throughput and costeffectiveness. Meanwhile, the Sanger sequencing methodologystill provides the longest reads, and paired-endsequencing that is based on that chemistry offers anopportunity to ensure accurate assembly results. In thisreport, we describe an optimized approach for hybrid denovo genome assembly using pyrosequencing data andvarying amounts of Sanger-type reads. 454 platformderivedcontigs can be used as single non-breakablevirtual reads or converted to simpler contigs that consistof editable, overlapping pseudoreads. These modifiedcontigs maintain their integrity at the first jumpstartingassembly stage and are edited by fragmenting andrejoining. Pre-existing assembly software then can beapplied for mixed assembly with 454-derived data andSanger reads. An effective method for identifying genomicdifferences between reference and sample sequencesin whole-genome resequencing procedures alsois suggested.

2008년 5월 23일 금요일

진정한 454/Sanger hybrid assembly

오랜만에 글을 올리게 되었다. 웹을 뒤져보니까 Bastien Chevreux라는 사람이 454/Solexa/Sanger read를 섞어서 합체할 수 있는 MIRA라는 공개 소프트웨어를 개발하고 있음을 알게 되었다.

http://chevreux.org/projects_mira.html

454 data와 Sanger data를 섞어서 작업하는 대부분의 전략에서는 454 consensus를 하나의 read로서 다룬다는 것이 근본적인 제약이다. 하지만 MIRA에서는 454 raw read를 있는 그대로 다룬다고 한다.

해 본 사람을 알겠지만, GS FLX standard run에서 만들어진 SFF file에서 염기서열과 quality score를 파일로 추출한 다음 phrap을 하면 4 GB 정도의 메모리를 가진 보통의 리눅스 머신에서는 진행이 되지 않는다. phrap이 좋은 프로그램이기는 하나 대용량의 데이터를 다루기에는 적합하지 않다. PCAP이나 Celera Assembler와 같이 multiple processor를 지원하는 대용량 데이터용 서열 합체 프로그램은 short read와는 궁합이 맞지 않는다.

기존의 소프트웨어를 이용하여 454 data와 Sanger data를 섞어서 합체하는 전략에 대한 간단한 논문을 쓰고 있다...

2008년 3월 7일 금요일

Consed/cross_match 새소식

David Gordon과 Phil Green은 Solexa와 454 데이터를 다룰 수 있도록 consed와 cross_match의 수정 작업을 벌이고 있다고 한다. 이 작업이 끝나면 수천만개의 Solex/454 read를 다룰 수 있다고 하니 기다려 볼 만한 일이 되겠다. 5곳에서 베타 테스트를 하고 있다고 한다.

2008년 2월 13일 수요일

TIGR assembler

새삼스럽게 왜 TIGR assembler인가? 사실 나도 AMOS 작업을 하기 전에는 거의 관심을 두지 않았었다. 그러나 조금 느리기는 해도 나름대로 탄탄하고 정확한 결과를 만들어 주는 것 같다. Methods in Molecular Biology(2004년)에 상세한 활용 방법이 나와 있다.

PubMed: http://www.ncbi.nlm.nih.gov/pubmed/15020832

TIGR assembler는 더 이상 JCVI(구 TIGR) 홈페이지의 소프트웨어 목록에 나와있지 않다. 대신 다음의 FTP site를 이용하여 다운로드할 수 있다.

ftp://ftp.jcvi.org/pub/software/assembler

맨 위의 표는 M. Pop, S. L. Salzberg, 그리고 M. Shumway가 2003년도에 쓴 Genome sequence assembly: algorithms and issue에 실린 것이다. 재미나지 않은가?

TIGR assembler가 유용한 점은 소위 'jumpstarting'이 가능하다는 것이다. 이것은 기존의 assembly 정보를 흩뜨리지 않으면서 새로운 서열 단편을 넣어 합체하는 작업을 의미한다. Consed에서 Add New Reads를 실행하는 것과 비슷하지만 더 유리한 점이 많다.

아무 생각 없이 기계적으로 컴퓨터 자판을 두드려서 assembly를 하기에는 phredPhrap만한 것이 없다. 이건 사실이다! 하지만 손이 조금 더 많이 가는만큼 더 정확한 결과물을 얻게 된다는 것도 사실이다. TIGR assembler가 귀찮은 점은 서열 전처리 작업(clear range 구하기)이다. 그러나 EST 혹은 genome survey sequencing 결과의 등록과 같이 말단 부분이 깨끗하게 제거된 서열이 필요하다면, TIGR assembler에 적용되는 전처리 과정(preTA: AMOS 패키지에 포함)을 사용하는 것도 좋겠다.

2008년 2월 4일 월요일

GS data를 주로 이용한 피니싱 (1): consed와 GS data

454, GS... 그냥 혼용하기로 하자. GS data를 주로 사용하여 피니싱을 하려고 한다. 도대체 어떻게 해야 하는가? 이는 target genome의 크기(유전체? BAC? fosmid), reference genome의 존재 여부(identity에 따라서도 달라짐), Sanger read의 혼용 여부에 따라서도 적용할 전략이 달라질 수 밖에 없다. Finishing tool은 consed 16.0, GS 소프트웨어는 GS FLX와 같이 배포된 offInstrumentApps_1.1.02.15(gsAssembler, gsMapper 등)를 쓰는 것으로 가정한다.

먼저 결정해야 할 일은 1) SFF 파일에서 개별 read를 뽑아낸 뒤 다른 assembler로 합체할 것인가, 또는 2) GS assembly 결과를 그대로 수용할 것인가이다. 개별 read의 특성(길이가 짧고 quality가 낮음)을 감안한다면 phrap이나 CelAsm과 같은 전통적인 assembler를 적용하여 다시 합체하는 것은 별로 권고하지 않는다. 사실 2)의 방법을 적용하는 것도 그렇게 단순하지만은 않다. 왜냐하면 크로마토그램 없이는, 좀 더 실제적으로 말하자면 PHD 파일 없이는 consed에서 할 수 있는 일이 별로 많지 않기 때문이다. 예를 들어 보자. GS 실행 결과물로서 contig 서열/quality 파일 및 454Contigs.ace가 기본적으로 제공된다. 하지만 PHD 파일이 없는 상태에서 ace file을 consed로 열게 되면 (consed -nophd 454Contigs.ace) read들이 정렬된 결과만 볼 수 있을 뿐 contig의 연결이나 편집 등 중요한 조작은 거의 하지 못한다. PHD 파일 정보를 생성하려면 gsAssembler 실행시 "complete consed folder" 옵션을 주어서 phd.ball 파일을 만들어야 한다. phd.ball 파일이란 모든 PHD 파일을 하나로 이어붙인 것으로서, edit_dir에 위치시켜 두면 consed 실행시 phd_dir에 있는 모든 PHD 파일을 읽어들이는 것 보다 훨씬 빠르게 진행된다. 게다가 서열 편집을 하려면 trace를 볼 수 있어야 하는데, 이를 위해서 .consedrc의 편집과 더불어 GS가 공급하는 추가 소프트웨어(sff2scf)를 컴파일하여 깔아 두어야 한다. sff2scf는 consed에서 trace view 요청을 할 때 실시간으로 SFF file로부터 해당 read의 fake chromatogram(SCF)을 생성하여 보여준다. 이러한 방법으로 consed에서 454 trace를 보고자 할 때에는 project main directory에 chromat_dir, phd_dir, edit_dir와 더불어 sff_dir이라는 디렉토리를 만들어 SFF 파일을 복사(혹은 심볼릭 링크)해 두고, .consedrc를 다음과 같이 설정해 두어야 한다.

consed.checkIfTooManyWalks: false
consed.alwaysRunProgramToGetChromats: true
consed.programToRunToGetChromats: /usr/local/rig/bin/sff2scf
consed.uncompressedChromatDirectory: /tmp
consed.fakeReadsSpecifiedByFilenameExtension: false
consed.primersBadLibrariesFile: badLibraries.txt

consed 16.0에서도 독자적인 방법으로 454 데이터를 지원하기 시작했다. consed 패키지를 풀면 misc/454 디렉토리에 sffinfo.c와 sff2scf.c라는 두 개의 소스 파일이 생긴다. sffinfo는 SFF 파일에서 read list를 뽑아내는 역할을 하고, sff2scf는 SFF 파일로부터 지정된 read를 추출하여 SCF 형식의 fake trace와 PHD 파일을 만들어낸다(주: consed에 포함된 sff2scf와 GS software에 포함된 sff2scf는 조금 다르다). 이렇게 하면 complete consed folder 옵션 없이 만들어진 454Contigs.ace 파일이라 해도 consed에서 무사히 열릴 것이다. Fake trace와 PHD 파일이 존재하게 되므로 이를 일상적인 read처럼 다루는 것이 가능하다.

Consed 19.0에서 달라진 점 (2009-04-30)

Consed 19.0은 sff2scf 080821 버전과 함께 쓰여야 한다. 이를 확인하고 싶으면 sff2scf -v라고 실행해 보라. 버전 번호가 나와야 정상이다. 만일 "Error: Unable to open SCF file: ../chromat_dir/-v"라고 출력되면 이를 버리고 consed package의 misc/454에 있는 sff2scf를 컴파일하여 설치하라.

두 종류의 sff2scf 유틸리티
기왕 이야기가 나온 김에 두 종류의 sff2scf 유틸리티에 대해서 자세히 알아보자. 먼저 GS software에 포함된 SFF Ttool의 하나인 sff2scf를 알아보자. 기본 설치 위치는 /usr/local/rig/bin/sff2scf가 될 것이다. sff2scf는 consed 환경에서 지정한 trace를 SFF로부터 실시간으로 생성하여 보여주는 도구이다. 사용법은 다음과 같다.

sff2scf locationstring [outputfile]

locationstring이란 read의 trace 정보에 접근하기 위해 사용하는 경로 혹은 명령어를 의미한다. outputfile은 실시간 생성되는 SCF 파일의 경로이다. 그러나 .consedrc를 위에서 소개한 대로 만들어 두면 sff2scf를 사용자가 직접 만질 필요는 없다. 다음은 GS software manual에 나와있는 SFF Tool의 간략한 소개이다.

The Genome Sequencer FLX System off-instrument software package contains six programsrelated to the handling of Standard Flowgram Format (SFF) files or other readdata; for combining files into the Standard Flowgram Format (SFF) and filtering reads inSFF files [sfffile]; for generating NCBI Trace Archive submissions of the data [sffvolume];for accessing SFF file information [sffinfo]; for dynamically generating an SCF trace filesuitable for display by the consed software [sff2scf]; for preparing FASTA files with thenecessary annotations for use by the assembler [fnafile]; and for converting Run dataobtained with older versions of the data analysis software (prior to version 1.0.52) [sffcall].These tools are all evoked at the UNIX command-line level. The descriptions belowassume that the reader is familiar with the Genome Sequencer FLX System data and formats,including the SFF file format.

Consed 16.0에서 새롭게 추가된 454 관련 도구는 sffinfo와 sff2scf 두가지 뿐이다. 사용법은 다음과 같이 비교적 간단하다.

Usage: sffinfo [options...] [- sfffile] [accno...]
Options:
-a or -accno Output just the accessions
-s or -seq Output just the sequences
-q or -qual Output just the quality scores
-f or -flow Output just the flowgrams
-t or -tab Output the seq/qual/flow as tab-delimited lines
-n or -notrim Output the untrimmed sequence or quality scores
-m or -mft Output the manifest text

Usage: sff2scf sff-filename fof

Consed에 포함된 454 관련 도구를 사용한다면, GS assembler를 complete consed folder 옵션 없이 실행시켰다 하여도 SFF 파일에 포함된 모든 read에 해당하는 가상 trace와 PHD 파일을 만들 수 있으므로 consed의 기능을 100% 활용하는 것이 가능하다.

Third party solution (sff_dump)
sff_dump라는 공개 소프트웨어도 있다. 이는 SFF에서 sequence 파일과 quality file을 추출하는 도구이다. 다음의 사이트를 참조하기 바란다.

http://genome.imb-jena.de/software/roche454ace2caf/Poster_UserMeeting_GS20_Munich_070328.pdf

http://genome.imb-jena.de/software/roche454ace2caf/

http://genome.imb-jena.de/software/roche454ace2caf/download/sff_dump-1.02.tar.gz

454 read를 consed에서 직접 확인할 필요가 없다고 생각한다면?

이상에서 소개한 방법은 이론상 아무런 문제가 없으나 assembly에 포함된 SFF file이 많다면 (쉽게 말하여 consed 실행시 읽어들어야 할 PHD 파일의 수가 너무 많다면) 상당히 불편하다. 454 contig를 충분히 신뢰하여 편집을 할 필요가 없다고 판단한다면, 454 contig 서열과 quality를 이용하여 contig 하나에 해당하는 fake trace를 만들고, 이를 contig 정보로 전환하여 ace file을 만들면 된다. 대부분의 454-based genome finishing은 이렇게 하는 것으로 실용상 문제가 없다고 생각한다. 만일 Sanger read가 일부 포함되어 있다면 454 contig의 정확도(서열로서가 아니라 assembly 측면에서)를 확인 가능하므로 좀 더 확신을 가지고 작업할 수 있다.

454 contig를 read로 전환하는 방법은 다음과 같다. mktrace를 실행하여 fake trace와 PHD file을 만든다. PHD file은 phd2Ace.perl을 이용하여 각각 하나씩의 ace file로 전환한 다음, 이를 concatenation하고 header를 정리하면 된다. Sanger read를 섞으려면 consed에서 add new reads 기능을 이용하면 된다. 최신 gsAssembler에서 Sanger read와 SFF를 혼합하여 합체하는 것도 가능하다.

454 contig를 있는 그대로 사용한다면 consed 환경에서 read를 기본 요소로 하여 contig를 나누는 교정 작업이 가능하지만, 이를 하나의 가상 read로 전환하여 single read contig로 만든다면 내부를 끊어내지 못한다는 것에 주의하라.

454 contig를 가상 read로 전환하여 작업한다 해도, 454Contigs.ace는 나름대로 쓸모가 있다. rRNA operon처럼 repeat-induced overcollapsed contig 내에서 어떠한 heterogeneity가 있는지 확인하거나, 이들이 좌우로 어떤 contig에 연결되는지를 알기 위한다면 말이다.

/* 분량이 너무 길어지므로 이하 부분은 시리즈물 (2)로 넘기겠다 */

1) Fosmid, BAC 등의 small target인 경우
BAC의 크기가 100 kb 정도인 것을 감안하면 16분할 구획에서 나온 SFF file 하나로도 충분할 것이다.

2) Reference genome이 있는 경우

3) Reference genome이 없는 경우

/* 계속 작성 중... */

454 pyrosequencing system(GS 20/GS FLX)에서 만들어지는 데이터

454 pyrosequencing의 원리에 대해서는 꽤 잘 알려져 있으므로 여기서는 다루지 않겠다. 다만 엔드 유저(장비 오퍼레이터가 아니라)의 입장에서 알아야 할 철저히 실무적인 이야기만 다루고자 한다.

표준 PicoTiterPlate는 70 x 75 mm의 크기이며, 가스켓을 사용하여 2, 4, 및 16개의 구획으로 나누어 서로 별도의 반응물을 로드할 수 있다. 이러한 구획 하나에서 한개씩의 SFF(Standard Flowgram Format) 파일이 만들어진다. 일반적으로 2분할 가스켓을 쓰게 되므로, 한번의 스탠다드 런을 수행하게 되면 두 개의 SFF file을 얻게 된다. PicoTiterPlate에 존재하는 모든 구멍(well; 직경 44미크론짜리 구멍이 50미크론 피치로 촘촘하게 배열)에 전부 비드를 채우게 되면 인접한 구멍에서 나오는 빛 신호의 간섭이 발생하므로, 구멍을 전부 채우지는 않는다. 하나의 플레이트에서 40만개의 read가 나오게 하는 것이 최적이므로, 표준 조건에서 만들어진 SFF file(2분할)는 각각 20만 read 정도를 포함하고 있다. 그렇다면 하나의 플레이트에서 약 100 Mb가 나온다는 계산은 어디에서 연유하는가?

400,000 reads x 250 bp/read = 100,000,000 bp = 100 Mb.

2008년에 나올 업그레이드 모델에서는 read length 400 bp, 1회 런닝에서 얻어지는 판독량은 1GB를 달성하게 된다고 하니 정말 대단한 발전이 아닐 수 없다!

Sanger sequencing에 의한 whole-genome shotgun project에서는 8-12x 정도의 coverage를 달성하는 것이 표준이었다. 하지만 454 system에서는 같은 coverage로는 충분한 assembly가 되지 않는다. 쉽게 이야기하면 Sanger sequencing에 비해 contig의 수는 더 많고, 길이는 더 짧다는 뜻이 된다. 이는 아마도 454 system에서 얻어지는 read의 길이가 현저히 짧기 때문일 것이다(수학적으로 증명 가능한 것으로 알고 있음). 게다가 454 system의 running cost가 더 적다 보니 여기에서는 20x sequencing coverage를 달성하는 것을 목표로 한다. 따라서 하나의 PicoTiterPlate에서 표준 런닝을 하여 100 Mb 어치의 결과를 얻으면 이는 5 Mb 정도의 세균 유전체에 대해 20배수를 확보한 셈이 된다. 5 Mb라 하면 세균 유전체로서는 중간 이상의 크기인 셈이다. 대장균이 4.6 Mb인 것을 감안한다면.

국내에서 454 시퀀싱을 하려면 마크로젠이나 NICEM, 또는 한국생명공학연구원 유전체연구단을 통하면 된다. 대개 결과는 contig sequence/quality file과 ace file 정도일 것이다. 하지만 조금 더 적극적인 유저라면 raw data인 SFF file을 입수하여 직접 GS assembler로 합체해 보는 것을 권한다. 하지만 소프트웨어의 라이센스 문제는 조금 더 알아보아야 되겠다. GS system을 구입한 곳에만 사용 권한을 주는 것인지...? 어차피 GS assembler에서 다룰 수 있는 데이터는 GS 장비가 있는 곳을 통해서만 생산되므로, GS assembler는 공개해도 별 문제가 없지 않나 하는 순진한 생각을 해 본다. 특히 GS FLX와 함께 2007년도 9월쯤 출시된 GUI 소프트웨어 버젼에서 많은 개선이 이루어진 것 같다. Sanger read와 GS raw data(SFF로서)를 혼합하여 합체하는데 적당한 도구가 없다는 것이 그동안의 어려운 점이었지만, 최신 소프트웨어에서는 이 기능이 추가되었다. 물론 Sanger read(ab1 file)을 그대로 넣는 것이 아니라 sequence/quality file로 전환하여 사용하게 되어 있다.

(그런데 무려 8개의 SFF file과 5만개의 ab1 file을 섞어서 합체했더니 오류가 나고 말았다! )

새 버전의 소프트웨어에 포함된 gsAssembler(GUI)와 runAssembly/runMapping(CLI)가 완전히 동등한지도 좀 더 공부를 해 봐야 되겠다. 똑같은 데이터를 투입했지만 결과가 조금 다르게 나온다던가, GUI에서는 합체에 따르는 몇가지 파라메터를 수정 가능하지만 CLI에서는 매뉴얼을 아무리 보아도 옵션을 통해 설정 변경을 할 수 있는 것 같지가 않다던가... 하지만 이렇게 떠들어 봐야 GS software를 GS 장비 구입자에게만 제공하는 것이 원칙이라고 하면 아무런 소용이 없는 것 아닌가? 이 문제에 대해서는 추후에 로슈 한국 지사에 물어봐야 되겠다.

다음 게시물에서는 GS data를 기반으로 하여 피니싱을 하는 일반적인 방법에 대해서 논해보고자 한다.

2008년 1월 26일 토요일

Phred/phrap/consed

미생물 유전체 해독에서 아직까지 가장 널리 쓰이고 있는 소프트웨어 패키지가 바로 phred/phrap/consed이다. Phred는 basecaller, phrap은 fragment assembler, 그리고 consed는 contig viewer & editor이다. 내가 이 프로그램을 처음 접한 것은 2000년도 였던 것으로 기억한다. 당시 (주)제노텍에 근무하고 있었으므로 University of Washington에 $10,000의 라이센스 비용을 지불하고 사용권을 얻었다. Phred는 99년도 판과 2000년도 판이 있었고, phrap은 내가 알기로는 2000년대 들어서 한번도 개정된 바가 없었다. Consed는 내가 처음 쓰기 시작한 것이 12.0이었는데, 2007년 16.0에 이르기까지 꾸준히 개선되고 있다. 지금은 비영리 연구기관에 있다 보니 라이센스 비용이 들지 않는다는 것이 좋기는 하다.

가장 방대하고 익히기 어려운 것은 이중에서 consed가 아닐까 한다. 단순 텍스트로만 빽빽하게 되어있는 매뉴얼을 프린트 해 놓으면 그 분량만 해도 상당하다! 내 생각으로는 버젼 13.0번 쯤에서 assembly view 기능이 추가된 것이 가장 큰 진보가 아닐까 한다. 이제는 454 pyrosequencing의 결과도 완벽하지는 않지만 다룰 수 있게 되었다.

엄밀히 말하자면 나는 bioinformatics 또는 computational biology를 제대로 전공한 사람은 아니다. 따라서 서열 단편 합체의 이론 자체에 대해서 완벽한 수학적 이해를 하고 있지는 않다는 뜻이다. 그러나 본격적인 대용량 시퀀싱의 시대를 연 주역인 ABI 3700 DNA analyzer의 작동으로부터 서열 합체, 피니싱 그리고 genome annotation에 이르기까지의 전 과정을 직접 경험해 보았기에 누구보다도 할 말은 많다 :) 특히 이론가들이 간과하기 쉬운 작업 현장의 문제 - 예를 들자면 read name을 왜 바꾸어야 하는가의 문제 - 에 대해서는 비교적 소상하게 알고 있는 편이다.

Phred와 phrap은 이미 이론적으로 완성된 경지에 이른 프로그램이니 더 이상 업데이트가 되지 않는 것이 이상하지는 않다. 하지만 Consed는 그렇게 오랜 시간 동안을 David Gordon 한 사람에 의해서 계속 개선되어 오고 있다는 것이 놀랍기만 하다. Phil Green lab의 홈페이지에 가면 유난히 깡마른 체구의 David Gordon이 보인다. 미국 대학교의 교수 연구실 체제가 어떻게 돌아가는지는 잘 모르겠지만, 우리나라 같으면 교수와 사무원 빼고는 모두가 '들렀다가 나가는' 사람인 현실을 감안한다면 꾸준히 한 자리에 머무르면서 자기가 개발한 소프트웨어를 계속 책임질 수 있다는 것이 참으로 대단하게 느껴진다.

콘'세'드인가, 콘'시'드인가? 이에 대한 궁금증 때문에 David에게 직접 메일을 보낸 적이 있었다. 아마도 콘세드로 읽어달라는 답장을 받았던 것 같다. Phred는 Phil Green's read editor, Phrap은 Phil Green's assemly program, consed는 contig sequence editor 정도의 의미일 것이다 (앞의 두개는 확실한 것으로 기억한다).

phred/phrap/consed, AMOS, 그리고 Celera Assembler

미생물 유전체 프로젝트의 실무를 맡은지도 올해로 벌써 9년째이다. 한가지 분야의 일에 오래 종사하다 보니 자잘한 노하우도 꽤 많이 축적한 셈이 되었다. 고속 시퀀싱 기술이 유행하고는 있지만 실제 자기 손으로 유전체 프로젝트를 다루어 본 사람은 많지 않은 것 같다. 대학원이나 벤쳐 기업의 경우 인력의 이동이 잦다 보니 실무 경험을 가진 사람이 유지되기 어렵고, 정부출연연구소의 경우에는 정규직 연구원이 되고 나면 조금씩 실무에서 멀어지는 경향이 있어서 역시 그 기술이 유지되기 어려운 경우를 많이 보았다.

유전체 프로젝트는 수요가 꾸준하지만 막상 열의를 가지고 배우려는 사람이 많지 않다. 어쩌면 이것이 그동안 내가 후배들을 양성하지 못한 핑계(?)일지도 모르겠다. 내가 알고 있는 지식을 직접 사람들에게 전달할 기회가 생기지 않는다면, 온라인을 통해서 할 수도 있는 것 아니겠는가? 그동안 나는 얼마나 많은 지식을 인터넷을 통해 입수했는가? 미력하나마 이제는 내가 정보의 제공자 역할을 할 때가 된 것 같다.

어제부터 AMOS 및 셀레라 어셈블러 활용 매뉴얼 문서를 작성하기 시작하였다. 얼마나 걸릴지는 모르겠지만 이제는 나를 위해서도 해야 하는 일이라 생각한다. 사실 미생물 유전체 해독 문제로 나에게 SOS를 치는 친구나 동료 과학자가 상당히 있다. 내 몸이 한개이니 이들이 원할때마다 방문하여 조언을 하기는 어렵다. 대신 온라인을 통해 공개하려고 한다. 기밀이 필요한 연구 분야도 있지만, 내가 하는 분야는 그렇지는 않다. 이것이 국민의 세금으로 운영되는 정부출연연구소의 연구자가 갖출 마땅한 자세라고 생각한다.

2008년 1월 15일 화요일

사진 올리기 성공

bloggers.com 도메인에 대한 쿠키 차단을 해제했더니 비로소 사진이 올라가게 되었다. 이렇게 하는 것이 맞는 것인지는 잘 모르겠지만^^

최저 -7도, 최고 0도의 제법 추운 겨울날씨이다.

정해영의 블로그 - JEONG Haeyoung's blog