Question

ENA and SRA fastq files

0

Entering edit mode

3.9 years ago

Sbrillo ▴ 10

Hi,

I downloaded the same file using in one case the ENA archive (directly from the browser) and in the other case the sratoolkit (prefetch and then fastq-dump conversion).

Do you know why these files have a different format?

ENA:

@SRR1531443.1 /1
TCTGGGTTGTTTCGGAGGTGGGTAGTCTTCGTTTGGGGATGTTTTTGTGGTTGATTGTTTCAGGTGGGGTTGTGTGTCATTGGAGTGTGTTGTGTTTGTGATGGGGTAGTGGATTATCCCTGCGGTGTGTATTGGGGGTTTTGAGGTTTGGTTTTGTGTGTTTTTTTTGTTGTGTTGGTTCGGTGTTGTGTTTGG
+
""!""""""""""""""""#"""""#!"!"!""""!!""""!"""!"#!""""""!#""""""!!""""!"""""!""""!""""""""#"""!""!"!#"""!""""""!!""!""!!"!""!"!!!"""#"!!!"""!"!""""!""!"!!""""""##!!"!!""""""#"""""!"!"""#"""!""""!"
@SRR1531443.2 /1
TGTGTTGTCGTTGGATTTGTTATGTTGATTGTGGGTCTAGTTGGTGGGTTTGTTTTTGGTAGTTGTTTATGTCGGGTTGGTGGGTCTTTGGGTCGTGGGCTCGTTGTTGGTTGCTGTGATGGTTTCGGTGAGTTGTTGTTTGGTGGGGTGGTTGTGTCGAGTGGGGCTTGTGTGTGGGGGTGGGTGGCG
+
"""""""""""""!"""""!"""$!"!""!"!!"""""""!!""!""!""""""!""""""#""""""""!#""!!""!"""""""""!""""""!""""#"#"!""""!""!""""""!"""""""""!!""""""#""!"""""!""!""""!""""#"""!"""""""""""#"""""""!"!!!"
@SRR1531443.3 /1
GTTGTTTCGATTTTTTTTCTGTGGATGTGGTGTTTTGGTTTGTTTGTTTTGTGATCTTGTGTTCTGTGGCTGTGCGTGTTTGGTGTTGGGTTGTGTGTTTGGTTTTTTTTCGGTTTTGGTTGTTGTTGTTGTTGTTGATTCTGCTGGTTTGTCTTTGGGTGTTGTGGTGTGATTTTTGTTTGATATGTTGATGTGTGATGGTTAT

SRA archive (sra toolkit) :

@SRR1531443.1 length=195
TCTGGGTTGTTTCGGAGGTGGGTAGTCTTCGTTTGGGGATGTTTTTGTGGTTGATTGTTTCAGGTGGGGTTGTGTGTCATTGGAGTGTGTTGTGTTTGTGATGGGGTAGTGGATTATCCCTGCGGTGTGTATTGGGGGTTTTGAGGTTTGGTTTTGTGTGTTTTTTTTGTTGTGTTGGTTCGGTGTTGTGTTTGG
+SRR1531443.1 length=195
""!""""""""""""""""#"""""#!"!"!""""!!""""!"""!"#!""""""!#""""""!!""""!"""""!""""!""""""""#"""!""!"!#"""!""""""!!""!""!!"!""!"!!!"""#"!!!"""!"!""""!""!"!!""""""##!!"!!""""""#"""""!"!"""#"""!""""!"
@SRR1531443.2 length=189
TGTGTTGTCGTTGGATTTGTTATGTTGATTGTGGGTCTAGTTGGTGGGTTTGTTTTTGGTAGTTGTTTATGTCGGGTTGGTGGGTCTTTGGGTCGTGGGCTCGTTGTTGGTTGCTGTGATGGTTTCGGTGAGTTGTTGTTTGGTGGGGTGGTTGTGTCGAGTGGGGCTTGTGTGTGGGGGTGGGTGGCG
+SRR1531443.2 length=189
"""""""""""""!"""""!"""$!"!""!"!!"""""""!!""!""!""""""!""""""#""""""""!#""!!""!"""""""""!""""""!""""#"#"!""""!""!""""""!"""""""""!!""""""#""!"""""!""!""""!""""#"""!"""""""""""#"""""""!"!!!"
@SRR1531443.3 length=205
GTTGTTTCGATTTTTTTTCTGTGGATGTGGTGTTTTGGTTTGTTTGTTTTGTGATCTTGTGTTCTGTGGCTGTGCGTGTTTGGTGTTGGGTTGTGTGTTTGGTTTTTTTTCGGTTTTGGTTGTTGTTGTTGTTGTTGATTCTGCTGGTTTGTCTTTGGGTGTTGTGGTGTGATTTTTGTTTGATATGTTGATGTGTGATGGTTAT

Is this difference (+ / +SRR1531443.1 length=195) have an impact during common operation like assembly/alignment/kmer generation ?

My dataset consists of PacBio reads and Illumina reads, do you suggest download both the datasets from the same archive? (in my case SRA)

fastq ENA sratoolkit next-gen Assembly • 1.5k views

ADD COMMENT • link updated 3.9 years ago by Rayan Chikhi ★ 1.5k • written 3.9 years ago by Sbrillo ▴ 10

0

Entering edit mode

https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR1531443 is a PacBio dataset. Not sure why ENA has added Illumina style headers (@SRR1531443.1 /1) though the data is clearly long read.

ADD REPLY • link 3.9 years ago by GenoMax 147k

score 3 · Answer 1 · 2021-01-10

3

Entering edit mode

3.9 years ago

Rayan Chikhi ★ 1.5k

"Is this difference (+ / +SRR1531443.1 length=195) have an impact during common operation like assembly/alignment/kmer generation ?"

-> no. Headers are ignored during all analyses.

ADD COMMENT • link 3.9 years ago by Rayan Chikhi ★ 1.5k