2019년 11월 12일 화요일

NCBI에 등록된 미생물 유전체 정보를 기준으로 가장 많이 시퀀싱된 종은 무엇일까?

10월 하순에 다운로드한 GenBank의 bacterial genome assembly summary file(링크)을 기준으로 species 단위로 집계를 해 보았다. subspecies는 고려하지 않았다. 이 파일은 매일 업데이트되고 있는데, 오늘 기준으로 무려 477,023 줄이나 된다. 첫 두 줄은 코멘트와 컬럼 설명이므로 등록된 유전체의 수는 477,021 건이란 뜻이 된다.

가장 많이 시퀀싱된 species 상위 100개를 정리하였다. 오른편의 숫자는 등록된 서열 건수이다. 1,000 건이 넘는 species는 28개이다. Pseudomonas sp.처럼 종이 특정되지 않은 것을 제외한다 하여도 대부분 병원성 세균이다. 특히 1위와 2위의 격차가 상당히 크다. 이 집계가 의미가 있으려면 시퀀싱된 것 중에서 complete genome level까지 된 것의 비율(혹은 수)을 산출하는 것도 필요하다.

나는 Salmonalla enterica가 왜 이렇게 중대한 병원성 세균인지에 대한 지식은 별로 갖고 있지 않지만, 최근 출판된 논문 앞부분을 슬쩍 훑어보니 꽤 심각한 녀석임에는 틀림이 없다.

Genomic features of high-priority Salmonella enterica serovars circulating in the food production chain, Brazil, 2000-2016. Scientific Reports volume 9, Article number: 11058 (2019)
Multidrug-resistant (MDR) Salmonella enterica has been deemed a high-priority pathogen by the World Health Organization. Two hundred and sixty-four Salmonella enterica isolates recovered over a 16-year period (2000 to 2016) from the poultry and swine production chains, in Brazil, were investigated by whole-genome sequencing (WGS).
아래 목록에서 11위를 차지하고 있는 Acinetobacter baumanii 데이터 중에는 내가 속한 연구 그룹에서 연세대학교 의과대학과 같이 작업을 했던 99건의 시퀀싱 결과물도 포함되어 있을 것이다. 등록한 데이터의 규모가 문제가 아니라 좋은 연구 논문이 나와 주어야 하는데.. 그게 걱정이다.

Salmonella enterica 170291
Campylobacter jejuni 28931
Listeria monocytogenes 23428
Streptococcus pneumoniae 21530
Escherichia coli 20299
Campylobacter coli 11687
Staphylococcus aureus 10907
Klebsiella pneumoniae 8642
Mycobacterium tuberculosis 6680
Pseudomonas aeruginosa 5223
Acinetobacter baumannii 4394
Clostridioides difficile 2824
Pseudomonas sp. 2649
Streptococcus pyogenes 2604
Neisseria meningitidis 1971
Shigella sonnei 1847
Enterococcus faecium 1804
Mycobacteroides abscessus 1724
Burkholderia pseudomallei 1568
Helicobacter pylori 1518
Enterococcus faecalis 1451
Vibrio parahaemolyticus 1346
Streptococcus suis 1303
Vibrio cholerae 1257
Streptococcus agalactiae 1222
Bacillus cereus 1094
Bordetella pertussis 1056
Rhizobiales bacterium 1006
Mesorhizobium sp. 999
Gammaproteobacteria bacterium 925
Streptomyces sp. 874
Legionella pneumophila 824
Enterobacter hormaechei 819
Bacteroidales bacterium 800
Haemophilus influenzae 753
Shigella flexneri 751
Enterobacter cloacae 739
Staphylococcus epidermidis 737
Bifidobacterium longum 709
Neisseria gonorrhoeae 650
Prochlorococcus sp. 643
Chloroflexi bacterium 631
uncultured Clostridiales 578
Actinobacteria bacterium 565
Bacillus thuringiensis 545
Serratia marcescens 538
Clostridiales bacterium 537
Bacillus sp. 529
Alphaproteobacteria bacterium 504
Lachnospiraceae bacterium 484
Deltaproteobacteria bacterium 472
Pseudomonas syringae 469
Lactobacillus plantarum 467
Cronobacter sakazakii 456
Xanthomonas oryzae 448
Stenotrophomonas maltophilia 436
Bacteroidetes bacterium 433
Acidobacteria bacterium 423
Acidimicrobiaceae bacterium 418
Firmicutes bacterium 415
Acinetobacter pittii 414
Yersinia pestis 400
Yersinia enterocolitica 389
candidate division 367
uncultured Collinsella 354
Clostridium sp. 351
Brucella melitensis 343
Verrucomicrobia bacterium 336
Campylobacter upsaliensis 333
Acinetobacter sp. 333
Parcubacteria group 332
Ruminococcaceae bacterium 321
Flavobacteriales bacterium 321
Flavobacteriaceae bacterium 315
Yersinia pseudotuberculosis 311
Bacillus subtilis 311
Leptospira interrogans 310
Campylobacter lari 309
Burkholderia ubonensis 307
Klebsiella oxytoca 301
Burkholderia cenocepacia 301
Bacteroides fragilis 301
Rhizobium leguminosarum 298
Bifidobacterium adolescentis 298
Klebsiella variicola 295
Planctomycetes bacterium 293
Prevotella sp. 276
Klebsiella quasipneumoniae 276
Cutibacterium acnes 274
Alistipes onderdonkii 270
Ruminococcus sp. 267
Streptococcus equi 265
Proteobacteria bacterium 263
Staphylococcus haemolyticus 262
Rhodobacteraceae bacterium 261
Pseudomonas stutzeri 261
Clostridium botulinum 248
Staphylococcus sp. 246
Francisella tularensis 243
Oenococcus oeni 242

댓글 없음: