Question

Reduce the headers in a fasta file to just the gi number?

0

Entering edit mode

10.2 years ago

oliver.bayfield ▴ 210

I simply want to reduce the headers in a fasta file from the long version below to simply the gi. i.e.

>gi|103058628|gb|DQ517338.1| Staphylococcus phage 80alpha, complete sequence
AGGTATCTGCATAGTTATTCCGAACTTCCAATTAATAAAACTCTATACCCGTAATCTTCAATGAGTTCTG
GCGCTTCCCTTTAATTCCTTTTACATATTCAAAATGAATGTTTTTGATTGCCATCTTTATGAATTCAGTT
TTTAACTCATCTTCCATTAATTCCCAGCCGTTTAGCAATGAATACTTGAAATTTTTAATCTTCTCATAGT

To:

>103058628
AGGTATCTGCATAGTTATTCCGAACTTCCAATTAATAAAACTCTATACCCGTAATCTTCAATGAGTTCTG
GCGCTTCCCTTTAATTCCTTTTACATATTCAAAATGAATGTTTTTGATTGCCATCTTTATGAATTCAGTT
TTTAACTCATCTTCCATTAATTCCCAGCCGTTTAGCAATGAATACTTGAAATTTTTAATCTTCTCATAGT

I'm guessing awk or grep has the technology!

fasta grep awk • 3.5k views

ADD COMMENT • link updated 2.5 years ago by Ram 45k • written 10.2 years ago by oliver.bayfield ▴ 210

1

Entering edit mode

Tip: awk and grep extract things, sed alters things. See Pierre's answer.

ADD REPLY • link 10.2 years ago by Neilfws 49k

Ram · Answer 1 · 2015-05-20

6

Entering edit mode

10.2 years ago

Pierre Lindenbaum 166k

just sed:

sed 's/^>gi|\([0-9]*\)|.*/>\1/' < in.fasta

ADD COMMENT • link updated 2.5 years ago by Ram 45k • written 10.2 years ago by Pierre Lindenbaum 166k

1

Entering edit mode

Excellent! Well sed

ADD REPLY • link 10.2 years ago by oliver.bayfield ▴ 210

0

Entering edit mode

How can I do it If I need both gi and gb numbers like >gi|103058628|gb|DQ517338.1|?

ADD REPLY • link updated 2.5 years ago by Ram 45k • written 9.2 years ago by tcf.hcdg ▴ 70