Question

Problem with this error: EXITING because of INPUT ERROR: the file format of the genomeFastaFile

0

Entering edit mode

3.4 years ago

foxiw ▴ 10

Hi.

I am trying to generate a index genome for my alignment, however I am running into a problem that isn't making any sense. This is the code in my slurm script:

#!/bin/bash

#SBATCH --partition=defq       # the requested queue
#SBATCH --nodes=1              # number of nodes to use
#SBATCH --tasks-per-node=1     # for parallel distributed jobs
#SBATCH --cpus-per-task=4      # for multi-threaded jobs
#SBATCH --mem-per-cpu=4G      # in megabytes, unless unit explicitly stated
#SBATCH --error=%J.err         # redirect stderr to this file
#SBATCH --output=%J.out        # redirect stdout to this file
#SBATCH --mail-user=foxiw@cardiff.ac.uk   # email address used for event notification
#SBATCH --mail-type=BEGIN,END,FAIL     # email on job start, end, and/or failure

# Load modules

module load STAR/2.7.3a

export RefDir=/mnt/scratch/c1818206/fastqs/merged_files/trimmedfiles/trimmedfiles_final

## Change --sjdbOverhang to length of your sequence data minus 1

STAR    --runThreadN ${SLURM_CPUS_PER_TASK} \
        --limitGenomeGenerateRAM 31G \
        --runMode genomeGenerate \
        --genomeDir  $RefDir/ \
        --genomeFastaFiles $RefDir/Mus_musculus.GRCm39.dna.primary_assembly.fa \
        --sjdbGTFfile $RefDir/Mus_musculus.GRCm39.104.gtf \
        --sjdbOverhang 75

However, I get this error when I run it on the server:

EXITING because of INPUT ERROR: the file format of the genomeFastaFile: /mnt/scratch/c1818206/fastqs/merged_files/trimmedfiles/trimmedfiles_final/Mus_musculus.GRCm39.dna.primary_assembly.fa is not fasta: the first character is '^_' (31), not '>'.
 Solution: check formatting of the fasta file. Make sure the file is uncompressed (unzipped).

Jun 17 17:53:03 ...... FATAL ERROR, exiting

This error makes no sense to me. I used to get it when I tried to run the code when the assembly and annotation files were zipped. I then used gunzip to unzip both, changed my code to the one above, but I still get this error. It makes no sense to me? Any help would be much appreciated.

RNA-seq alignment STAR • 2.8k views

ADD COMMENT • link updated 3.4 years ago by Ram 44k • written 3.4 years ago by foxiw ▴ 10

0

Entering edit mode

What is the output of:

head -n 5 /mnt/scratch/c1818206/fastqs/merged_files/trimmedfiles/trimmedfiles_final/Mus_musculus.GRCm39.dna.primary_assembly.fa | cat -te

ADD REPLY • link 3.4 years ago by Ram 44k

0

Entering edit mode

Hi, I can your coe and got this output. Could it be that my file is corrupted?

^_M-^K^H^@^@^@^@^@^@M-^?M-lM-}M-KM-^N,M-IM-66lM-uM-}*M-8^ENBM-P@2M-^YM-@{4M-^PM-]^@^B$:M-^@^DM-w/QiM-o;<sM--ooM-~M-}M-}4M-h<M-5VUM-MM-^Z3M-^_M-^L^Hw;M-^LM-^CEM-dM-^?M-v^?M-z?M-yM-?M-|?M-~OM-^?M-^[M-^?M-sM-^?M-mM-^?M-uM-^?M-|M-?M-^??M-^?M-_M-^?M-OM-^?M-{M-^?M-u^?M-rM-{M-KM-^?M-MM-{^?M-\M-^?M-wM-^?M-yM-^?M-z^?M-s?M-}M-yM-_M-^?M-z^?M-y?M-}_M-~/M-~gM-^?M-+^?M-~M-k^?M-r^?M-|M-_M-}M-oM-^_M-^?M-CM-^?^O^?M-A0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-C0^LM-

ADD REPLY • link 3.4 years ago by foxiw ▴ 10

0

Entering edit mode

Your fasta file is not plain text. Are you sure it was gzipped and you gunzipped it properly? What is the output of:

file /mnt/scratch/c1818206/fastqs/merged_files/trimmedfiles/trimmedfiles_final/Mus_musculus.GRCm39.dna.primary_assembly.fa

ADD REPLY • link 3.4 years ago by Ram 44k

0

Entering edit mode

It says that its gzip compressed data, so obviously it wasn't gunzipped properly! Thanks. How would I go about doing it properly then? Last time I wrote:

gunzip Mus_musculus.GRCm39.dna.primary_assembly.fa.gz

Thanks again.

ADD REPLY • link 3.4 years ago by foxiw ▴ 10

0

Entering edit mode

That should have worked. Try gzip -dc Mus_musculus.GRCm39.dna.primary_assembly.fa.gz > Mus_musculus.GRCm39.dna.primary_assembly.fa && echo "Completed Successfully" so you have both files and can ensure gzip ran to completion properly.

ADD REPLY • link 3.4 years ago by Ram 44k

0

Entering edit mode

I did as you said and the echo was printed, I then re-ran the file comannd, however I now get this:

Mus_musculus.GRCm39.dna.primary_assembly.fa: empty

I used less command and it is indeed empty.

ADD REPLY • link 3.4 years ago by foxiw ▴ 10

1

Entering edit mode

EDIT:

I guess you're downloading from EnsEMBL FTP and not GENCODE FTP. In that case, here's the code you need:

rm GRCm39.primary_assembly.genome.fa*
wget http://ftp.ensembl.org/pub/release-104/fasta/mus_musculus/dna/Mus_musculus.GRCm39.dna.primary_assembly.fa.gz
file Mus_musculus.GRCm39.dna.primary_assembly.fa.gz
gunzip -c Mus_musculus.GRCm39.dna.primary_assembly.fa.gz > Mus_musculus.GRCm39.dna.primary_assembly.fa
file Mus_musculus.GRCm39.dna.primary_assembly.fa.gz

It seems that EnsEMBL FTP's CHECKSUMS are not MD5SUMS. I can't figure out what the contents in the CHECKSUMS file means.

Can you try re-downloading and decompressing the FASTA file by running this:

rm GRCm39.primary_assembly.genome.fa*
wget http://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M27/GRCm39.primary_assembly.genome.fa.gz
wget http://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M27/MD5SUMS
md5sum -c <(grep "GRCm39.primary_assembly.genome.fa.gz" MD5SUMS) ## This should say "GRCm39.primary_assembly.genome.fa.gz: OK"
file GRCm39.primary_assembly.genome.fa.gz
gunzip -c GRCm39.primary_assembly.genome.fa.gz > GRCm39.primary_assembly.genome.fa
file GRCm39.primary_assembly.genome.fa

The above block ensures the download completed successfully and that the transfer was not corrupted in transit.

ADD REPLY • link 3.4 years ago by Ram 44k

0

Entering edit mode

I think that may have worked. The output of the last file command states its ASCII file. I'm going to re-run my script and see if it works this time. Thank you so much for your help. Could I run a similar script to get the annotation file (gencode.vM27.primary_assembly.annotation.gtf.gz)?

Thanks again

ADD REPLY • link 3.4 years ago by foxiw ▴ 10

0

Entering edit mode

Yep, that's worked now. It must have become corrupted when I first downloaded the files. Thanks again for your help :)

ADD REPLY • link 3.4 years ago by foxiw ▴ 10

0

Entering edit mode

No problem. You can do this for the GTF file too. By the way, the CHECKSUMS provided by EnsEMBL are generated using the sum command (I only knew that md5sum and sha1sum commands).

You may have to manually verify though, sum does not seem to have the -c equivalent of md5sum.

wget ftp_url/file_from_ftp_server
wget ftp_url/CHECKSUMS
sum file_from_ftp_server ## manually verify the checksum by looking at the CHECKSUMS file
gunzip file_from_ftp_server

ADD REPLY • link 3.4 years ago by Ram 44k