Question

get names from fasta file

0

Entering edit mode

8.2 years ago

zzzahiri • 0

How can I get the name of proteins from fasta file in R for example: P13639 from

sp|P13639|EF2_HUMAN Elongation factor 2 OS=Homo sapiens GN=EEF2 PE=1 SV=4 MVNFTVDQIRAIMDKKANIRNMSVIAHVDHGKSTLTDSLVCKAGIIASARAGETRFTDTR KDEQERCITIKSTAISLFYELSENDLNFIKQSKDGAGFLINLIDSPGHVDFSSEVTAALR VTDGALVVVDCVSGVCVQTETVLRQAIAERIKPVLMMNKMDRALLELQLEPEELYQTFQR IVENVNVIISTYGEGESGPMGNIMIDPVLGTVGFGSGLHGWAFTLKQFAEMYVAKFAAKG EGQLGPAERAKKVEDMMKKLWGDRYFDPANGKFSKSATSPEGKKLPRTFCQLILDPIFKV FDAIMNFKKEETAKLIEKLDIKLDSEDKDKEGKPLLKAVMRRWLPAGDALLQMITIHLPS PVTAQKYRCELLYEGPPDDEAAMGIKSCDPKGPLMMYISKMVPTSDKGRFYAFGRVFSGL VSTGLKVRIMGPNYTPGKKEDLYLKPIQRTILMMGRYVEPIEDVPCGNIVGLVGVDQFLV KTGTITTFEHAHNMRVMKFSVSPVVRVAVEAKNPADLPKLVEGLKRLAKSDPMVQCIIEE SGEHIIAGAGELHLEICLKDLEEDHACIPIKKSDPVVSYRETVSEESNVLCLSKSPNKHN RLYMKARPFPDGLAEDIDKGEVSARQELKQRARYLAEKYEWDVAEARKIWCFGPDGTGPN ILTDITKGVQYLNEIKDSVVAGFQWATKEGALCEENMRGVRFDVHDVTLHADAIHRGGGQ IIPTARRCLYASVLTAQPRLMEPIYLVEIQCPEQVVGGIYGVLNRKRGHVFEESQVAGTP MFVVKAYLPVNESFGFTADLRSNTGGQAFPQCVFDHWQILPGDPFDNSSRPSQVVAETRK RKGLKEGIPALDNFLDKL

R • 3.7k views

ADD COMMENT • link updated 8.2 years ago by Medhat 9.8k • written 8.2 years ago by zzzahiri • 0

score 0 · Answer 1 · 2016-09-14

0

Entering edit mode

8.2 years ago

Medhat 9.8k

from

http://www.bioconductor.org/packages/2.13/bioc/html/Biostrings.html

you can use

library("Biostrings")
myFastaFile <- readAAStringSet("my.fasta")
seqName = names(myFastaFile)

and if you have a big file you can refer to

http://stackoverflow.com/questions/23173215/how-to-subset-sequences-in-fasta-file-based-on-sequence-id-or-name

ADD COMMENT • link 8.2 years ago by Medhat 9.8k

0

Entering edit mode

Thanks But the result of this code is sp|P13639|EF2_HUMAN but I want to have P13639 :-(

ADD REPLY • link 8.2 years ago by zzzahiri • 0

0

Entering edit mode

maybe use gsub?

ADD REPLY • link 8.2 years ago by Ram 44k

0

Entering edit mode

what about using split?

strsplit(seq, "|")[[1]][2]

ADD REPLY • link 8.2 years ago by Medhat 9.8k