Question

Fasta Conversion

3

Entering edit mode

13.0 years ago

Syawash ▴ 30

Hi there, Is there away change identifiers in a fasta file. For examplt from

>fastsdde135667667
actgcagtctga
>fgdte12875
actggact

to

>Seq1
actgcagtctga
>Seq2
actggact

fasta • 2.2k views

ADD COMMENT • link updated 13.0 years ago by Daniel ★ 4.0k • written 13.0 years ago by Syawash ▴ 30

score 6 · Answer 1 · 2012-01-01

6

Entering edit mode

13.0 years ago

Pierre Lindenbaum 164k

use awk:

awk '/^>/ { printf(">Seq%d\n",(++i)); next;} { print }' < input.fa > output.fa

Ex:

echo ">fastsdde135667667
actgcagtctga
>fgdte12875
actggact" | awk '/^>/ { printf(">Seq%d\n",(++i)); next;} { print }'

>Seq1
actgcagtctga
>Seq2
actggact

ADD COMMENT • link 13.0 years ago by Pierre Lindenbaum 164k

0

Entering edit mode

Hi Pierre. Just curious if you can add padding with zeroes simply with awk. Eg: seq1 --> seq0001, seq253 --> seq0253. Happy New Year :)

ADD REPLY • link 13.0 years ago by Eric Normandeau 11k

0

Entering edit mode

@Eric, yes that works like the std C printf: printf(">Seq%03d\n",(++i))

ADD REPLY • link 13.0 years ago by Pierre Lindenbaum 164k

0

Entering edit mode

@Pierre, nice! Thanks. Have to learn more C and C++ some time.

ADD REPLY • link 13.0 years ago by Eric Normandeau 11k

score 1 · Answer 2 · 2012-01-01

1

Entering edit mode

13.0 years ago

Daniel ★ 4.0k

also, this:

#!/usr/bin/perl

$count =1;

while (<>){
        if (s/^>.*/>Seq$count/){;
        $count++;
        }
        print;
}

>Seq1
actgcagtctga
>Seq2
actggact

ADD COMMENT • link 13.0 years ago by Daniel ★ 4.0k

Ram · Answer 3 · 2012-01-01

0

Entering edit mode

13.0 years ago

Martin A Hansen 3.0k

With Biopieces and add_ident:

read_fasta -i input.fa | add_ident -k SEQ_NAME -p Seq | write_fasta -o output.fa -x

ADD COMMENT • link updated 5.3 years ago by Ram 44k • written 13.0 years ago by Martin A Hansen 3.0k