Hi,
I downloaded the same file using in one case the ENA archive (directly from the browser) and in the other case the sratoolkit (prefetch and then fastq-dump conversion).
Do you know why these files have a different format?
ENA:
@SRR1531443.1 /1
TCTGGGTTGTTTCGGAGGTGGGTAGTCTTCGTTTGGGGATGTTTTTGTGGTTGATTGTTTCAGGTGGGGTTGTGTGTCATTGGAGTGTGTTGTGTTTGTGATGGGGTAGTGGATTATCCCTGCGGTGTGTATTGGGGGTTTTGAGGTTTGGTTTTGTGTGTTTTTTTTGTTGTGTTGGTTCGGTGTTGTGTTTGG
+
""!""""""""""""""""#"""""#!"!"!""""!!""""!"""!"#!""""""!#""""""!!""""!"""""!""""!""""""""#"""!""!"!#"""!""""""!!""!""!!"!""!"!!!"""#"!!!"""!"!""""!""!"!!""""""##!!"!!""""""#"""""!"!"""#"""!""""!"
@SRR1531443.2 /1
TGTGTTGTCGTTGGATTTGTTATGTTGATTGTGGGTCTAGTTGGTGGGTTTGTTTTTGGTAGTTGTTTATGTCGGGTTGGTGGGTCTTTGGGTCGTGGGCTCGTTGTTGGTTGCTGTGATGGTTTCGGTGAGTTGTTGTTTGGTGGGGTGGTTGTGTCGAGTGGGGCTTGTGTGTGGGGGTGGGTGGCG
+
"""""""""""""!"""""!"""$!"!""!"!!"""""""!!""!""!""""""!""""""#""""""""!#""!!""!"""""""""!""""""!""""#"#"!""""!""!""""""!"""""""""!!""""""#""!"""""!""!""""!""""#"""!"""""""""""#"""""""!"!!!"
@SRR1531443.3 /1
GTTGTTTCGATTTTTTTTCTGTGGATGTGGTGTTTTGGTTTGTTTGTTTTGTGATCTTGTGTTCTGTGGCTGTGCGTGTTTGGTGTTGGGTTGTGTGTTTGGTTTTTTTTCGGTTTTGGTTGTTGTTGTTGTTGTTGATTCTGCTGGTTTGTCTTTGGGTGTTGTGGTGTGATTTTTGTTTGATATGTTGATGTGTGATGGTTAT
SRA archive (sra toolkit) :
@SRR1531443.1 length=195
TCTGGGTTGTTTCGGAGGTGGGTAGTCTTCGTTTGGGGATGTTTTTGTGGTTGATTGTTTCAGGTGGGGTTGTGTGTCATTGGAGTGTGTTGTGTTTGTGATGGGGTAGTGGATTATCCCTGCGGTGTGTATTGGGGGTTTTGAGGTTTGGTTTTGTGTGTTTTTTTTGTTGTGTTGGTTCGGTGTTGTGTTTGG
+SRR1531443.1 length=195
""!""""""""""""""""#"""""#!"!"!""""!!""""!"""!"#!""""""!#""""""!!""""!"""""!""""!""""""""#"""!""!"!#"""!""""""!!""!""!!"!""!"!!!"""#"!!!"""!"!""""!""!"!!""""""##!!"!!""""""#"""""!"!"""#"""!""""!"
@SRR1531443.2 length=189
TGTGTTGTCGTTGGATTTGTTATGTTGATTGTGGGTCTAGTTGGTGGGTTTGTTTTTGGTAGTTGTTTATGTCGGGTTGGTGGGTCTTTGGGTCGTGGGCTCGTTGTTGGTTGCTGTGATGGTTTCGGTGAGTTGTTGTTTGGTGGGGTGGTTGTGTCGAGTGGGGCTTGTGTGTGGGGGTGGGTGGCG
+SRR1531443.2 length=189
"""""""""""""!"""""!"""$!"!""!"!!"""""""!!""!""!""""""!""""""#""""""""!#""!!""!"""""""""!""""""!""""#"#"!""""!""!""""""!"""""""""!!""""""#""!"""""!""!""""!""""#"""!"""""""""""#"""""""!"!!!"
@SRR1531443.3 length=205
GTTGTTTCGATTTTTTTTCTGTGGATGTGGTGTTTTGGTTTGTTTGTTTTGTGATCTTGTGTTCTGTGGCTGTGCGTGTTTGGTGTTGGGTTGTGTGTTTGGTTTTTTTTCGGTTTTGGTTGTTGTTGTTGTTGTTGATTCTGCTGGTTTGTCTTTGGGTGTTGTGGTGTGATTTTTGTTTGATATGTTGATGTGTGATGGTTAT
Is this difference (+ / +SRR1531443.1 length=195) have an impact during common operation like assembly/alignment/kmer generation ?
My dataset consists of PacBio reads and Illumina reads, do you suggest download both the datasets from the same archive? (in my case SRA)
https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR1531443 is a PacBio dataset. Not sure why ENA has added Illumina style headers (
@SRR1531443.1 /1
) though the data is clearly long read.