Question

Database of common contaminants in human genome assemblies

3

Entering edit mode

10.4 years ago

Biomonika (Noolean) 3.2k

What are the common contaminants in the human genomic DNA? Is there any database available (e.g. in fasta format or is it maybe safer to check for matches on protein level)? I am working with primates, but I would assume to find similar contaminants there.

Do you check for the contaminants in the reads or in the contigs of the final assembly (so far it seems to me that latter is the preferred way)? Which tools do you use (e.g. FastQ Screen)?

contaminant assembly genome • 3.7k views

ADD COMMENT • link updated 3.2 years ago by Ram 45k • written 10.4 years ago by Biomonika (Noolean) 3.2k

Ram · Answer 1 · 2014-12-10

If you have any human data, map it against human genome. Take the unmapped reads and do a blast to see what kind of hits you get. But as far as my knowledge, there is no such list of common contaminants because contamination happens accidentally.

If you are using illumina and if your lane is loaded with small percentage of PhiX ( for balancing or for better yield), then there will be few reads from PhiX genome (1-2%) even though PhiX does not have any barcode.

Ram · Answer 2 · 2014-12-11

Some common contaminations in my data (the 1st column gives abundance):

  10321 566060467:CP006852.1:cellular_organisms    Pseudomonas sp. TKP, complete genome
   2159 646237114:CP007638.1:cellular_organisms    Pseudomonas sp. WCS374 genome
   1894 387159426:CP003041.1:cellular_organisms    Pseudomonas fluorescens A506, complete genome
    173 90103542:CP000301.1:cellular_organisms    Rhodopseudomonas palustris BisB18, complete genome
    161 86570155:CP000250.1:cellular_organisms    Rhodopseudomonas palustris HaA2, complete genome
    157 47118316:BA000040.2:cellular_organisms    Bradyrhizobium japonicum USDA 110 DNA, complete genome
    151 115515977:CP000463.1:cellular_organisms    Rhodopseudomonas palustris BisA53, complete genome
    143 381356398:AP012279.1:cellular_organisms    Bradyrhizobium sp. S23321 DNA, complete genome
    135 91680938:CP000283.1:cellular_organisms    Rhodopseudomonas palustris BisB5, complete genome
    115 91798527:CP000319.1:cellular_organisms    Nitrobacter hamburgensis X14, complete genome
    114 456351576:AP012603.1:cellular_organisms    Agromonas oligotrophica S58 DNA, complete genome
    109 146403799:CP000494.1:cellular_organisms    Bradyrhizobium sp. BTAi1, complete genome
    109 315599110:CP002418.1:cellular_organisms    Rhodopseudomonas palustris DX-1, complete genome
    103 666084728:CP008896.1:cellular_organisms    Pseudomonas fluorescens strain UK4, complete genome
     98 146189981:CU234118.1:cellular_organisms    Bradyrhizobium sp. ORS278,complete sequence
     93 354952622:AP012206.1:cellular_organisms    Bradyrhizobium japonicum USDA 6 DNA, complete genome
     86 268322399:FP236530.1:cellular_organisms    Mycoplasma hominis ATCC 23114 chromosome complete genome
     81 336096911:CP002826.1:cellular_organisms    Oligotropha carboxidovorans OM5, complete genome
     78 209871356:CP001196.1:cellular_organisms    Oligotropha carboxidovorans OM5 strain OM5, complete genome
     77 627779227:CP007569.1:cellular_organisms    Bradyrhizobium japonicum SEMIA 5079 genome
     72 192282182:CP001096.1:cellular_organisms    Rhodopseudomonas palustris TIE-1, complete genome
     70 336093334:CP002821.1:cellular_organisms    Oligotropha carboxidovorans OM4, complete genome
     62 229359445:AM181176.4:cellular_organisms    Pseudomonas fluorescens SBW25 complete genome
     62 646231607:CP007637.1:cellular_organisms    Pseudomonas simiae strain WCS417 genome
     59 293651473:AB553833.1:organisms    Human artificial chromosome vector 21HAC4 DNA, isolated from the short arm, clone: YAC/BAC#37-2
     53 74419069:CP000115.1:cellular_organisms    Nitrobacter winogradskyi Nb-255, complete genome
     52 507098404:HE798385.1:cellular_organisms    Achromobacter xylosoxidans NH44784-1996 complete genome
     37 445198867:CP004045.1:cellular_organisms    Pseudomonas poae RE*1-1-14, complete genome
     35 667665003:LK934971.1:Eukaryota    Babesia divergens genome assembly 454hybrid_PBjelly ,scaffold Contig261
     35 68342549:CP000076.1:cellular_organisms    Pseudomonas protegens Pf-5, complete genome
     29 133737197:CU207211.1:cellular_organisms    Herminiimonas arsenicoxydans chromosome, complete sequence
     26 667664132:LK935679.1:Eukaryota    Babesia divergens genome assembly 454hybrid_PBjelly ,scaffold Contig969
     24 193001753:CP001047.1:cellular_organisms    Mycoplasma arthritidis 158L3-1, complete genome
     22 693:V00115.1:Boreoeutheria    Bos taurus 1.711a satellite DNA with insert INS-1.711A. (extends from base 501 to 1151)
     21 156768689:EU059182.1:cellular_organisms    Uncultured bacterium clone LM0ABA42ZG12FM1 genomic sequence
     21 663673439:HG975440.1:Eukaryota    Solanum pennellii chromosome ch01, complete genome
     20 635284334:CP005960.1:cellular_organisms    Pseudomonas mandelii JR-1, complete genome
     20 669026884:HG670306.1:Eukaryota    Triticum aestivum chromosome 3B, genomic scaffold, cultivar Chinese Spring
     17 336024847:CP002279.1:cellular_organisms    Mesorhizobium opportunistum WSM2075, complete genome
     17 587652027:KJ123690.1:organisms    Human herpesvirus 6A isolate GS, complete genome
     17 647802220:CP008696.1:cellular_organisms    Pseudomonas chlororaphis strain PA23, complete genome
     17 663673457:HG975451.1:Eukaryota    Solanum pennellii chromosome ch12, complete genome
     16 430790723:CP003738.1:cellular_organisms    Pseudomonas putida HB3267, complete genome
     16 512381003:AP013070.1:cellular_organisms    Pseudomonas putida NBRC 14164 DNA, complete genome
     16 635291785:CP007620.1:cellular_organisms    Pseudomonas putida strain DLL-E4, complete genome
     15 296926528:CP002026.1:cellular_organisms    Starkeya novella DSM 506, complete genome
     15 511519639:CP005976.1:cellular_organisms    Pseudomonas putida H8234, complete genome
     15 657121522:CP006581.1:cellular_organisms    Mesorhizobium huakuii 7653R genome
     14 30407150:AL844508.1:Eukaryota    Plasmodium falciparum 3D7 chromosome 9
     14 383101383:CP002291.1:cellular_organisms    Escherichia coli P12b, complete genome
     13 148509317:CP000712.1:cellular_organisms    Pseudomonas putida F1, complete genome
     13 168192641:CP000943.1:cellular_organisms    Methylobacterium sp. 4-46, complete genome
     13 663680989:HG975517.1:Eukaryota    Solanum lycopersicum chromosome ch05, complete genome
     13 853961:X83413.1:organisms    Human herpesvirus-6 (HHV-6) U1102, variant A DNA, complete virion genome
     12 24987239:AE015451.1:cellular_organisms    Pseudomonas putida KT2440 complete genome
     12 293651475:AB553834.1:organisms    Human artificial chromosome vector 21HAC4 DNA, isolated from the long arm, clone: YAC/BAC#26-2
     12 380504511:JQ039399.1:cellular_organisms    Pseudomonas fluorescens strain X putative EmrB/QacA family drug resistance transporter gene, partial cds; and hypothetical protein (sup5), putative cupin2 conserved barrel domain protein (sup6), hypothetical protein, putative NRPS protein, and putative polyketide cyclase/dehydrase genes, complete cds
     12 567363169:CP006931.1:cellular_organisms    Pseudomonas aeruginosa SCV20265, complete genome
     11 169757190:CP000949.1:cellular_organisms    Pseudomonas putida W619, complete genome
     11 171705315:EU199081.2:cellular_organisms    Pseudomonas fluorescens strain SS101 clone 2 massetolide A biosynthesis gene cluster, partial sequence
     11 219944660:CP001349.1:cellular_organisms    Methylobacterium nodulans ORS 2060, complete genome
     11 297747440:AC241324.1:Eukaryota    Pinus taeda clone PT_7Ba3321I06, complete sequence
     11 315593157:CP002417.1:cellular_organisms    Variovorax paradoxus EPS, complete genome
     11 338835784:CP002870.1:cellular_organisms    Pseudomonas putida S16, complete genome
     11 388557647:CP003588.1:cellular_organisms    Pseudomonas putida ND6, complete genome
     11 496684371:KC543497.1:cellular_organisms    Pseudomonas aeruginosa plasmid pOZ176, complete sequence
     11 508083607:JX891478.1:organisms    Human T-lymphotropic virus 1 isolate Aus-GM, complete genome
     11 613736623:CP007549.1:cellular_organisms    Acinetobacter baumannii AC12, complete genome
     11 663673445:HG975446.1:Eukaryota    Solanum pennellii chromosome ch07, complete genome
     11 672717140:LK931771.1:cellular_organisms    Sphingobacterium sp. PM2-P1-29 genome assembly Sequencing method ,scaffold BN1088_Contig_19
     10 116077971:CT990557.10:Hominoidea    N.leucogenys DNA sequence from clone CH271-446I8, complete sequence
     10 149694693:CU442723.4:Euarchontoglires    Mouse DNA sequence from clone CH25-44K11 on chromosome 2, complete sequence
     10 154158043:CP000781.1:cellular_organisms    Xanthobacter autotrophicus Py2, complete genome
     10 160361034:CP000884.1:cellular_organisms    Delftia acidovorans SPH-1, complete genome
     10 166857509:CP000926.1:cellular_organisms    Pseudomonas putida GB-1, complete genome
     10 260447279:CP001637.1:cellular_organisms    Escherichia coli DH1, complete genome
     10 312120198:XM_003151722.1:Bilateria    Loa loa hypothetical protein (LOAG_16235) mRNA, complete cds
     10 433663430:CP003358.1:cellular_organisms    Mesorhizobium australicum WSM2073, complete genome
     10 46364909:AL844505.1:Eukaryota    Plasmodium falciparum 3D7 chromosome 6
     10 54144532:AC107786.14:Euarchontoglires    Mus musculus chromosome 5, clone RP23-5E3, complete sequence
     10 569540043:CP006644.1:cellular_organisms    Sphingomonas sanxanigenens NX02, complete genome
     10 659659325:HG938355.1:cellular_organisms    Neorhizobium galegae, complete genome
     10 71553748:CP000058.1:cellular_organisms    Pseudomonas syringae pv. phaseolicola 1448A, complete genome

Ram · Answer 3 · 2014-12-12

1

Entering edit mode

10.4 years ago

Mikael Huss 4.8k

It might be worth looking at this paper which describes contaminants commonly found in DNA extraction kits: Reagent and laboratory contamination can critically impact sequence-based microbiome analyses

The type of contaminants you expect to see, except for kit contaminants, probably depends a lot on tissue and other things. I usually try to identify contaminants both at the read level (using bowtie2) and at the contig level (using some variation of BLAST or a faster program; now that Vsearch is available, that could be a nice alternative in some cases). In some cases I have mapped against the tissue microbiome references given at the HMP (Human Microbiome Project) web site (e g the gut microbiome, which is a big download but can nowadays be indexed with bowtie2 or bwa).

ADD COMMENT • link updated 3.2 years ago by Ram 45k • written 10.4 years ago by Mikael Huss 4.8k

0

Entering edit mode

Thank you. We always have negative control with water, so I believe we would have discovered contamination in DNA kits. However, our samples underwent a lot of steps before we got them, so I am concerned mostly about that.

ADD REPLY • link updated 3.2 years ago by Ram 45k • written 10.4 years ago by Biomonika (Noolean) 3.2k