Difference In Genome Builds

Entering edit mode

14.4 years ago

Dataminer ★ 2.8k

Does difference in gene build, can influence ones analysis?

Genome builds are always being updated, so an analysis performed on an older build is of any significance?

example: analysis performed 2 yrs ago based on build hg 16 will bear any significance today?

genome • 5.4k views

ADD COMMENT • link updated 14.4 years ago by Jorge Amigo 14k • written 14.4 years ago by Dataminer ★ 2.8k

Entering edit mode

Please note that a gene build is not the same as a genome build. A gene build is a set of gene annotations. A genome build is another word for a genome assembly (for human e.g. GRCh37/hg19, NCBI36/hg18 etc.). As mentioned by Ian it is indeed very important to know on which genome assembly your data are annotated. You can map coordinates between builds with the UCSC liftOver tool or the Ensembl Assembly converter (http://www.ensembl.org/tools.html).

ADD REPLY • link 14.4 years ago by Bert Overduin ★ 3.7k

Entering edit mode

Thank you, for correction.

ADD REPLY • link 14.4 years ago by Dataminer ★ 2.8k

Entering edit mode

14.4 years ago

Pierre Lindenbaum 166k

The coordinates have changed between the two builds. The following mysql query shows that only 2785 SNPs, all mapped on chr17, have the same coordinates between hg18 and hg19.

mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -D hg18

mysql> select A.chrom,count(*) from hg18.snp130 as A, hg19.snp130 as B where A.weight=1 and B.weight=1 and A.name=B.name and A.chrom=B.chrom and A.chromStart=B.chromStart and A.chromEnd=B.chromEnd group by A.chrom;
+-------+----------+
| chrom | count(*) |
+-------+----------+
| chr17 |     2785 | 
+-------+----------+
1 row in set (8 min 29.72 sec)

but the other SNPs have been mapped to another coordinates:

mysql> select A.chrom,B.chrom,count(*) from hg18.snp130 as A, hg19.snp130 as B where A.weight=1 and B.weight=1 and A.name=B.name and NOT(A.chrom=B.chrom and A.chromStart=B.chromStart and A.chromEnd=B.chromEnd) group by A.chrom,B.chrom;

	+---------------+-------+----------+
	\| chrom \| chrom \| count(*) \|
	+---------------+-------+----------+
	\| chr1 \| chr1 \| 1358813 \|
	\| chr10 \| chr10 \| 813686 \|
	\| chr10_random \| chr10 \| 414 \|
	\| chr10_random \| chr5 \| 91 \|
	\| chr11 \| chr11 \| 796360 \|
	\| chr11_random \| chr11 \| 111 \|
	\| chr12 \| chr12 \| 788276 \|
	\| chr13 \| chr13 \| 606305 \|
	\| chr14 \| chr14 \| 516781 \|
	\| chr15 \| chr15 \| 486388 \|
	\| chr15_random \| chr15 \| 378 \|
	\| chr15_random \| chr5 \| 31 \|
	\| chr16 \| chr16 \| 523414 \|
	\| chr16_random \| chr16 \| 429 \|
	\| chr17 \| chr17 \| 471314 \|
	\| chr17_random \| chr1 \| 31 \|
	\| chr17_random \| chr10 \| 4 \|
	\| chr17_random \| chr11 \| 203 \|
	\| chr17_random \| chr13 \| 31 \|
	\| chr17_random \| chr14 \| 1 \|
	\| chr17_random \| chr16 \| 1 \|
	\| chr17_random \| chr17 \| 6890 \|
	\| chr17_random \| chr18 \| 5 \|
	\| chr17_random \| chr19 \| 2 \|
	\| chr17_random \| chr2 \| 1 \|
	\| chr17_random \| chr21 \| 5 \|
	\| chr17_random \| chr3 \| 10 \|
	\| chr17_random \| chr4 \| 2 \|
	\| chr17_random \| chr7 \| 1 \|
	\| chr17_random \| chr8 \| 5 \|
	\| chr17_random \| chr9 \| 9 \|
	\| chr17_random \| chrX \| 3 \|
	\| chr17_random \| chrY \| 3 \|
	\| chr18 \| chr18 \| 463132 \|
	\| chr18_random \| chr18 \| 2 \|
	\| chr19 \| chr19 \| 379932 \|
	\| chr19_random \| chr11 \| 92 \|
	\| chr19_random \| chr12 \| 4 \|
	\| chr19_random \| chr14 \| 4 \|
	\| chr19_random \| chr15 \| 2 \|
	\| chr19_random \| chr19 \| 1587 \|
	\| chr19_random \| chr20 \| 3 \|
	\| chr19_random \| chr21 \| 1 \|
	\| chr19_random \| chr3 \| 13 \|
	\| chr19_random \| chr5 \| 588 \|
	\| chr19_random \| chr6 \| 4 \|
	\| chr19_random \| chr7 \| 18 \|
	\| chr19_random \| chr8 \| 11 \|
	\| chr19_random \| chr9 \| 1 \|
	\| chr19_random \| chrX \| 20 \|
	\| chr1_random \| chr1 \| 4884 \|
	\| chr1_random \| chr10 \| 1 \|
	\| chr1_random \| chr12 \| 1 \|
	\| chr1_random \| chr13 \| 1 \|
	\| chr1_random \| chr2 \| 24 \|
	\| chr1_random \| chr3 \| 1 \|
	\| chr1_random \| chr5 \| 7 \|
	\| chr1_random \| chr6 \| 1 \|
	\| chr1_random \| chr7 \| 1 \|
	\| chr1_random \| chr8 \| 2 \|
	\| chr1_random \| chrX \| 90 \|
	\| chr2 \| chr2 \| 1363886 \|
	\| chr20 \| chr20 \| 442982 \|
	\| chr21 \| chr21 \| 254208 \|
	\| chr21_random \| chr1 \| 713 \|
	\| chr21_random \| chr21 \| 209 \|
	\| chr21_random \| chr3 \| 1 \|
	\| chr21_random \| chr4 \| 2 \|
	\| chr21_random \| chrY \| 7 \|
	\| chr22 \| chr22 \| 266138 \|
	\| chr22_h2_hap1 \| chr13 \| 1 \|
	\| chr22_h2_hap1 \| chr16 \| 1 \|
	\| chr22_h2_hap1 \| chr22 \| 385 \|
	\| chr22_h2_hap1 \| chr6 \| 1 \|
	\| chr22_random \| chr11 \| 319 \|
	\| chr22_random \| chr22 \| 3 \|
	\| chr2_random \| chr2 \| 1041 \|
	\| chr3 \| chr3 \| 1137173 \|
	\| chr3_random \| chr10 \| 2 \|
	\| chr3_random \| chr11 \| 5 \|
	\| chr3_random \| chr12 \| 1 \|
	\| chr3_random \| chr13 \| 3 \|
	\| chr3_random \| chr3 \| 3267 \|
	\| chr3_random \| chr6 \| 1 \|
	\| chr3_random \| chr9 \| 2 \|
	\| chr4 \| chr4 \| 1128181 \|
	\| chr4_random \| chr1 \| 266 \|
	\| chr4_random \| chr2 \| 1 \|
	\| chr4_random \| chr20 \| 14 \|
	\| chr4_random \| chr3 \| 3 \|
	\| chr4_random \| chr4 \| 225 \|
	\| chr4_random \| chr9 \| 130 \|
	\| chr4_random \| chrY \| 90 \|
	\| chr5 \| chr5 \| 995496 \|
	\| chr5_h2_hap1 \| chr1 \| 57 \|
	\| chr5_h2_hap1 \| chr10 \| 20 \|
	\| chr5_h2_hap1 \| chr11 \| 36 \|
	\| chr5_h2_hap1 \| chr12 \| 43 \|
	\| chr5_h2_hap1 \| chr13 \| 24 \|
	\| chr5_h2_hap1 \| chr14 \| 41 \|
	\| chr5_h2_hap1 \| chr15 \| 7 \|
	\| chr5_h2_hap1 \| chr16 \| 33 \|
	\| chr5_h2_hap1 \| chr17 \| 49 \|
	\| chr5_h2_hap1 \| chr18 \| 36 \|
	\| chr5_h2_hap1 \| chr19 \| 33 \|
	\| chr5_h2_hap1 \| chr2 \| 81 \|
	\| chr5_h2_hap1 \| chr20 \| 29 \|
	\| chr5_h2_hap1 \| chr21 \| 4 \|
	\| chr5_h2_hap1 \| chr22 \| 6 \|
	\| chr5_h2_hap1 \| chr3 \| 73 \|
	\| chr5_h2_hap1 \| chr4 \| 56 \|
	\| chr5_h2_hap1 \| chr5 \| 5481 \|
	\| chr5_h2_hap1 \| chr6 \| 99 \|
	\| chr5_h2_hap1 \| chr7 \| 55 \|
	\| chr5_h2_hap1 \| chr8 \| 44 \|
	\| chr5_h2_hap1 \| chr9 \| 27 \|
	\| chr5_h2_hap1 \| chrX \| 61 \|
	\| chr5_h2_hap1 \| chrY \| 3 \|
	\| chr5_random \| chr1 \| 2 \|
	\| chr5_random \| chr3 \| 1 \|
	\| chr5_random \| chr5 \| 654 \|
	\| chr6 \| chr6 \| 1139120 \|
	\| chr6_cox_hap1 \| chr1 \| 364 \|
	\| chr6_cox_hap1 \| chr10 \| 201 \|
	\| chr6_cox_hap1 \| chr11 \| 242 \|
	\| chr6_cox_hap1 \| chr12 \| 303 \|
	\| chr6_cox_hap1 \| chr13 \| 208 \|
	\| chr6_cox_hap1 \| chr14 \| 146 \|
	\| chr6_cox_hap1 \| chr15 \| 111 \|
	\| chr6_cox_hap1 \| chr16 \| 112 \|
	\| chr6_cox_hap1 \| chr17 \| 95 \|
	\| chr6_cox_hap1 \| chr18 \| 108 \|
	\| chr6_cox_hap1 \| chr19 \| 185 \|
	\| chr6_cox_hap1 \| chr2 \| 254 \|
	\| chr6_cox_hap1 \| chr20 \| 76 \|
	\| chr6_cox_hap1 \| chr21 \| 38 \|
	\| chr6_cox_hap1 \| chr22 \| 41 \|
	\| chr6_cox_hap1 \| chr3 \| 438 \|
	\| chr6_cox_hap1 \| chr4 \| 421 \|
	\| chr6_cox_hap1 \| chr5 \| 277 \|
	\| chr6_cox_hap1 \| chr6 \| 77605 \|
	\| chr6_cox_hap1 \| chr7 \| 208 \|
	\| chr6_cox_hap1 \| chr8 \| 291 \|
	\| chr6_cox_hap1 \| chr9 \| 164 \|
	\| chr6_cox_hap1 \| chrX \| 370 \|
	\| chr6_cox_hap1 \| chrY \| 12 \|
	\| chr6_qbl_hap2 \| chr1 \| 233 \|
	\| chr6_qbl_hap2 \| chr10 \| 93 \|
	\| chr6_qbl_hap2 \| chr11 \| 170 \|
	\| chr6_qbl_hap2 \| chr12 \| 151 \|
	\| chr6_qbl_hap2 \| chr13 \| 120 \|
	\| chr6_qbl_hap2 \| chr14 \| 80 \|
	\| chr6_qbl_hap2 \| chr15 \| 74 \|
	\| chr6_qbl_hap2 \| chr16 \| 58 \|
	\| chr6_qbl_hap2 \| chr17 \| 75 \|
	\| chr6_qbl_hap2 \| chr18 \| 53 \|
	\| chr6_qbl_hap2 \| chr19 \| 96 \|
	\| chr6_qbl_hap2 \| chr2 \| 203 \|
	\| chr6_qbl_hap2 \| chr20 \| 70 \|
	\| chr6_qbl_hap2 \| chr21 \| 30 \|
	\| chr6_qbl_hap2 \| chr22 \| 31 \|
	\| chr6_qbl_hap2 \| chr3 \| 279 \|
	\| chr6_qbl_hap2 \| chr4 \| 237 \|
	\| chr6_qbl_hap2 \| chr5 \| 133 \|
	\| chr6_qbl_hap2 \| chr6 \| 73682 \|
	\| chr6_qbl_hap2 \| chr7 \| 149 \|
	\| chr6_qbl_hap2 \| chr8 \| 175 \|
	\| chr6_qbl_hap2 \| chr9 \| 81 \|
	\| chr6_qbl_hap2 \| chrX \| 198 \|
	\| chr6_qbl_hap2 \| chrY \| 7 \|
	\| chr6_random \| chr1 \| 1 \|
	\| chr6_random \| chr10 \| 1 \|
	\| chr6_random \| chr11 \| 3 \|
	\| chr6_random \| chr12 \| 2 \|
	\| chr6_random \| chr14 \| 1 \|
	\| chr6_random \| chr3 \| 1 \|
	\| chr6_random \| chr5 \| 1864 \|
	\| chr6_random \| chr6 \| 4947 \|
	\| chr6_random \| chr7 \| 2 \|
	\| chr6_random \| chr8 \| 4 \|
	\| chr6_random \| chrX \| 6 \|
	\| chr7 \| chr4 \| 24 \|
	\| chr7 \| chr7 \| 932538 \|
	\| chr7_random \| chr19 \| 2 \|
	\| chr7_random \| chr7 \| 1521 \|
	\| chr8 \| chr8 \| 854948 \|
	\| chr8_random \| chr2 \| 71 \|
	\| chr8_random \| chr5 \| 36 \|
	\| chr8_random \| chr6 \| 7 \|
	\| chr8_random \| chr8 \| 2646 \|
	\| chr8_random \| chr9 \| 2 \|
	\| chr9 \| chr9 \| 688731 \|
	\| chr9_random \| chr10 \| 36 \|
	\| chr9_random \| chr11 \| 46 \|
	\| chr9_random \| chr12 \| 17 \|
	\| chr9_random \| chr14 \| 9 \|
	\| chr9_random \| chr15 \| 10 \|
	\| chr9_random \| chr16 \| 27 \|
	\| chr9_random \| chr17 \| 8 \|
	\| chr9_random \| chr18 \| 1665 \|
	\| chr9_random \| chr19 \| 14 \|
	\| chr9_random \| chr2 \| 105 \|
	\| chr9_random \| chr20 \| 20 \|
	\| chr9_random \| chr21 \| 20 \|
	\| chr9_random \| chr22 \| 2 \|
	\| chr9_random \| chr3 \| 6 \|
	\| chr9_random \| chr4 \| 10 \|
	\| chr9_random \| chr5 \| 23 \|
	\| chr9_random \| chr6 \| 3 \|
	\| chr9_random \| chr7 \| 283 \|
	\| chr9_random \| chr8 \| 18 \|
	\| chr9_random \| chr9 \| 810 \|
	\| chr9_random \| chrX \| 27 \|
	\| chr9_random \| chrY \| 1 \|
	\| chrX \| chrX \| 555139 \|
	\| chrX_random \| chr10 \| 1 \|
	\| chrX_random \| chr12 \| 3 \|
	\| chrX_random \| chr2 \| 1 \|
	\| chrX_random \| chr3 \| 1 \|
	\| chrX_random \| chr9 \| 3 \|
	\| chrX_random \| chrX \| 3016 \|
	\| chrY \| chrY \| 32173 \|
	+---------------+-------+----------+
	222 rows in set (8 min 23.95 sec)

view raw biostars-6714.txt hosted with ❤ by GitHub

ADD COMMENT • link updated 5.9 years ago by Ram 45k • written 14.4 years ago by Pierre Lindenbaum 166k

Entering edit mode

14.4 years ago

Ian 6.1k

I may have misread your question, but it is a very important point that genome coordinates can change between genome builds, e.g. hg17, to hg19. However, you can use the UCSC liftOver tool to swap between builds.

One should always check what genome build was used for a particular dataset, especially published data.

ADD COMMENT • link 14.4 years ago by Ian 6.1k

Entering edit mode

I would say it is still valid. The only caveat is the there may be regions of the genome that have been refined/removed etc. in newer builds.

ADD REPLY • link 14.4 years ago by Ian 6.1k

Entering edit mode

The point which I want to put forward, the research carried out on older genomic co-orfdinates is still valid or not.

ADD REPLY • link 14.4 years ago by Dataminer ★ 2.8k

Entering edit mode

14.4 years ago

Jorge Amigo 14k

the conclussions of an analysis shouldn't be that different using different genome builds if dealing with genes, since these are fairly conserved regions which should be well covered from one genome build to other. you may find difficulties with intergenic regions, where insertions/deletions/swaps/... may be detected or removed by new genome updates.

what it definitely would change from one build to another would be the annotation coordinates, if those coordinates are genomic. if you were working with cDNA coordinates on your previous experiment you may be lucky enough not to have them changed, although our experience is that updating genome builds almost always imply updating all the annotation we previously had.

ADD COMMENT • link 14.4 years ago by Jorge Amigo 14k