Hi everyone. I'm new int this forum but i had a lot of information of RNA-seq experiments. In one of them i have a file with non matched sequences in a .txt format. But i have a problem: it doesn't hav the initial ">" and the sequences are in this format (examples):
NI_1_(paired)_trimmed_(paired)_contig_2465 (here is space and then the immediatly the sequence) ATAGACATAAATGATAATTTACATGGTAACGTAAACAAAGCCAATGAAAAATTAACATGTAAACATGCTTTGCCCAACATAATTTCTGAACGGATTATATTTACACAGTAAAAATATGAAAATGAAATTGCCATTTTTGAAATAATACCTAACAAAAATACCGGTAATTACAATATTTACAACACATTAAACAATTGAATACAACTTGGAATGCATATTTGTCTTGTTTTTCATGCAATGACTGTACATGACCTCATTTCGATAAATTGTTGCAACACATAAACTACAGCACATGTACATGTACTGCTGAAAGGCATATACTGTATATGGTTATGATGGGAAATGATGTTGAACTTATAATATGCATTGAACAATACAAATTGCATTTACACCACTTGTATGCACTAATATGTTTTATAGTCATGATTTCACAAACTTTTTACTAGTACAAGGATTGGGATTGGCAATTAAGAATAGCATAATTTTTGCATAATATGTGCATCACTGCCAATATATTCACATTTAACTATTTGTCTTACAAAATACAAAAGCACATTTATAGATCATTATTTACTTCTACTTTATTTCTATTTATTTATTCAAGATCAAAAAATGTTTTATTGACATATATACTTTTCTAAAAATCAAAATGTCACGATTTTTGAAATTCATACTGTTATGAAAAAAATACAGACACTTAAAAAAAAAAGAATGAAAACTTGTTTGTTACCTGGCGAGTAACAATAAAAGAAAAAAAAAATATCAATACTTATAAAGTATTCAATTACAGTATGTTGCGCTATTTCACTATTTCACAAGTGACTCCAACACAACGGTACAAAATATTCATTCATAAAGACATAAACCAGAGACTGATTGCACAAAGCTGCCCTAGAGTTTAGTTATCGACAAAATACATTTTTTTCTATATACAGTAAAACATTCCACCTGCAAATTGTATCGCTAGAAAACCATGGTCTATTCTTAGAATTGTTTTCCAACAAAAGCAAACTTGGATCAATTCCACTCATTAAGAATACTGGTGCTAAAAATGAAACACAGGTACATGTACTTTAGTAATTATAATAGGGAACATTTAACTTCATCAATCATTATCCAACATTCATAAGATAGCATTGAAGCAGACTAGTGGTGTACAGCAGAAACCAGCCAGAGCAAGGTCTAGATCTACTGTATTGCCCTATATATCTATTCAATTACCGTATTTTCCGGACAATAAGTCACACCTGTGTATAAGTCCCAAAGGCCTTTTTTACGATTTTTTCAGTTTTCATACACACATAAATCGCACTCCCGATTTTCAGGNNNNNNNNNNNNNAAAAAGTCGCGACTTATACTCCAGAAAATACGGTAACCTTTTACACATGTATGTTGAACACTCAGAACATTGTAAGGTGTTACAAAATTAGTCCAGTGGAAGGGTCAAGACAATATGACAAAGCAAATATGGCACAAAACAACTCACAACTGAACTGGAACAGGTGGTTGTCATGGACGAAAGCTGAGGTACCGTGGAGAAATGATGTATCACATTAAAATACCATTGTAGGCTTTCAACCAACAGATACATAATATGCATGTCAAATATACATGTGACAATCACAGGCCTTTCTTAGTGACAATCATAATACATGTGCGCCTACCAGGAAACATCTGTAAATTTCAATGTTGCATGAATTTCCTTAAAATCTTTCATACTTTCTTATAGAAACAAAAAACAAAGTAATCCATACCAATCCAAATCCAAAACACTTACAACTGTTACACATCTAAGTCACAACTATTCATAACACATCTATACTATTACATTTATAAGTCACTTACAACAGTTACACATCTTAGACTAAGTCACTTCGAACAGCAATACCCAACTGTTACTGTTACACATCTAAGTCACTTACAACTATTACACGTCTAAGTCACTTAATTCGAACTGTTACACATCTAAGTCACTCTTAAGTTACTTAAATCGAACTGTTTCACATCTAAGTCACTTACAACTGTTGCACATCTAAGTCACTTACAACTGTTGCACATCTAAGTCACTTTAAACTGTTACACGTCTAAGTCAATCACAACTGTTGCACATCTAAGTCACTTACAACTGCATATTGCATCCTTTTATACACATCACAGATCTACTGTAACATAAAAAACAATTTGAAATAAATCACAGTCAAATATTCACTCAACATCATATACACTACCGTAACAATTAATCTCCTTTCAAATGGAAACTTCCCCTGATGATCTACATCAGCAGTTTAATATAGTGATATCCAGAATATTACTATACTGCATTTGCTGAAACTATAGCAACCCTTATTTCTGTAAAAGCGCCCATCTCCCTTTCAGGGAAGAAAATCTTACATATACAGTATAACTGTAATTAGTTTTTTTTGTTAGTAAAAAGTGCAAAAGCTGAACTTGGGTTCTGTACAAGTATCAATGAATCTAGAAATGTCGGTGCCAAAATATGGATGAGGCGCAACACGACACAACACAATGGACATGGACTAATGTATGTGACCTCGATTTCACAGTGGGAATATCAAAGGGAAGATGAAATATTTAGTATCTGTAGATTATTCTGAGATTGAGCTTAACATTCCAATTTTTTTTTTTTTTTTTGCATTTTGTAAAACAGAAACTGCACTAAATATTGATATCCATAGAAATCAGTATCAAATCTATGGTGCACTCAATGATTTAAATTTTCTACAAATGCATAAAACACAGAAACAATATTCCTGTACCTGTATCTTTAAAAATTAACTTGTTTTCAAAGTGATTCCATTTCACTGCCTATTCAAAACCCAAGTTCTGTAGTGATTTCTAATAGCTTAGAATAAGTCTAGTTGACTTGAAAGTTTTGATTCACATCATCAGATTCTAACATATAGCTTATAAACAATTCTGAACGTACTGGGTCTACTTGTTTAAAACTACTTTAGAAGTTAACTTTCCTTAACTCTTAGATATTGAATTGCTAGCAATTTTCCTCATTTTGAGATATATTCTATTCCGAATTTGCATATTACAGAGTTATCTGCACCTGCGGG NI_1_(paired)_trimmed_(paired)_contig_2468 (same here) GCTCAACTCAATGTCTGTGATCCTCTCCATTGTTCTCTCCTAGAATAAAAACAAAAGTACAAAATCAGCGCTCATTCATATCAATCATAGGAAAGTACCTATATCTTTATAGAGAGAACACAAGCACCCACATGTTATATTGCAATTAGCTGGATGCATACCCCTACCATGATATGTTAACTTAAAACCCAAGGTTTATATATATTGACTAGCACTTATAATGCTAAATGATATAGCATTATTAAAATGGGAAATTAAAAGTAATACAATTGAACGTAAGTGCTATACAATGAACATAGCTTATGCAACATTTCCATGCATTGCTTTTATTTGCATTAAAATAAACTTTTAAATCATGCAATGATAATAAGAAAATCAGGAAAAGCCATCAACCAGCAAAAAATTCAAAACAAGAATTAAAATTTTAAATCATAAATCATTACTGTGCATTTAAGGAAGGTTATCATCAACAGTATAATAGGCAGTGATTAATTTTGAAAGCAATAATATAAGACAACTGGGATCAATGTTTTGCAGCTAAAAGTGCTATTAATGCACTAGTACCTGTAAAAGCAGATTGAAAAAGAACATTGCAGCCAGTCGATAAAAGCCATGTTTATCACAACCTTTTCAGCAAGACCAATACATTTTTATATGAGCCTGACGCCTTCATTTTACATTGAATTTGAATTTACAACTGGATGCCATTTAGCAATGTCCTGATAACAGGTCAAAAGGATGAAGGAATTTGCAGGAAAAGCGAAGAGGATCTATATCTATAAGCTAGCTATATATATAGAGGCATTGCAGGTAGCGAAGGGCAAAACCTGACACAAGGTATACGTACGCATGCTAGAAAATGAGATAATTGACATTTCATTGTCAAAAATAATGTTCAGGTTTTAATATCTATTTGAAGAATAATCTTATCAGCTTCAATAATGATTTTCTTTAAAAACTAGATAAATGCACCCAAAAAAAATGTTTTTGAAGTATGTTTATATATTT
I already add the > symbol with some awk script but i can't get rid of the space and separate the sequences from the blank spaces.
I need sometime like this:
NI_1_(paired)_trimmed_(paired)_contig_2465 ATAGACATAAATGATAATTTACATGGTAACGTAAACAAAGCCAATGAAAAATTAACATGTAAACATGCTTTGCCCAACATAATTTCTGAACGGATTATATTTACACAGTAAAAATATGAAAATGAAATTGCCATTTTTGAAATAATACCTAACAAAAATACCGGTAATTACAATATTTACAACACATTAAACAATTGAATACAACTTGGAATGCATATTTGTCTTGTTTTTCATGCAATGACTGTACATGACCTCATTTCGATAAATTGTTGCAACACATAAACTACAGCACATGTACATGTACTGCTGAAAGGCATATACTGTATATGGTTATGATGGGAAATGATGTTGAACTTATAATATGCATTGAACAATACAAATTGCATTTACACCACTTGTATGCACTAATATGTTTTATAGTCATGATTTCACAAACTTTTTACTAGTACAAGGATTGGGATTGGCAATTAAGAATAGCATAATTTTTGCATAATATGTGCATCACTGCCAATATATTCACATTTAACTATTTGTCTTACAAAATACAAAAGCACATTTATAGATCATTATTTACTTCTACTTTATTTCTATTTATTTATTCAAGATCAAAAAATGTTTTATTGACATATATACTTTTCTAAAAATCAAAATGTCACGATTTTTGAAATTCATACTGTTATGAAAAAAATACAGACACTTAAAAAAAAAAGAATGAAAACTTGTTTGTTACCTGGCGAGTAACAATAAAAGAAAAAAAAAATATCAATACTTATAAAGTATTCAATTACAGTATGTTGCGCTATTTCACTATTTCACAAGTGACTCCAACACAACGGTACAAAATATTCATTCATAAAGACATAAACCAGAGACTGATTGCACAAAGCTGCCCTAGAGTTTAGTTATCGACAAAATACATTTTTTTCTATATACAGTAAAACATTCCACCTGCAAATTGTATCGCTAGAAAACCATGGTCTATTCTTAGAATTGTTTTCCAACAAAAGCAAACTTGGATCAATTCCACTCATTAAGAATACTGGTGCTAAAAATGAAACACAGGTACATGTACTTTAGTAATTATAATAGGGAACATTTAACTTCATCAATCATTATCCAACATTCATAAGATAGCATTGAAGCAGACTAGTGGTGTACAGCAGAAACCAGCCAGAGCAAGGTCTAGATCTACTGTATTGCCCTATATATCTATTCAATTACCGTATTTTCCGGACAATAAGTCACACCTGTGTATAAGTCCCAAAGGCCTTTTTTACGATTTTTTCAGTTTTCATACACACATAAATCGCACTCCCGATTTTCAGGNNNNNNNNNNNNNAAAAAGTCGCGACTTATACTCCAGAAAATACGGTAACCTTTTACACATGTATGTTGAACACTCAGAACATTGTAAGGTGTTACAAAATTAGTCCAGTGGAAGGGTCAAGACAATATGACAAAGCAAATATGGCACAAAACAACTCACAACTGAACTGGAACAGGTGGTTGTCATGGACGAAAGCTGAGGTACCGTGGAGAAATGATGTATCACATTAAAATACCATTGTAGGCTTTCAACCAACAGATACATAATATGCATGTCAAATATACATGTGACAATCACAGGCCTTTCTTAGTGACAATCATAATACATGTGCGCCTACCAGGAAACATCTGTAAATTTCAATGTTGCATGAATTTCCTTAAAATCTTTCATACTTTCTTATAGAAACAAAAAACAAAGTAATCCATACCAATCCAAATCCAAAACACTTACAACTGTTACACATCTAAGTCACAACTATTCATAACACATCTATACTATTACATTTATAAGTCACTTACAACAGTTACACATCTTAGACTAAGTCACTTCGAACAGCAATACCCAACTGTTACTGTTACACATCTAAGTCACTTACAACTATTACACGTCTAAGTCACTTAATTCGAACTGTTACACATCTAAGTCACTCTTAAGTTACTTAAATCGAACTGTTTCACATCTAAGTCACTTACAACTGTTGCACATCTAAGTCACTTACAACTGTTGCACATCTAAGTCACTTTAAACTGTTACACGTCTAAGTCAATCACAACTGTTGCACATCTAAGTCACTTACAACTGCATATTGCATCCTTTTATACACATCACAGATCTACTGTAACATAAAAAACAATTTGAAATAAATCACAGTCAAATATTCACTCAACATCATATACACTACCGTAACAATTAATCTCCTTTCAAATGGAAACTTCCCCTGATGATCTACATCAGCAGTTTAATATAGTGATATCCAGAATATTACTATACTGCATTTGCTGAAACTATAGCAACCCTTATTTCTGTAAAAGCGCCCATCTCCCTTTCAGGGAAGAAAATCTTACATATACAGTATAACTGTAATTAGTTTTTTTTGTTAGTAAAAAGTGCAAAAGCTGAACTTGGGTTCTGTACAAGTATCAATGAATCTAGAAATGTCGGTGCCAAAATATGGATGAGGCGCAACACGACACAACACAATGGACATGGACTAATGTATGTGACCTCGATTTCACAGTGGGAATATCAAAGGGAAGATGAAATATTTAGTATCTGTAGATTATTCTGAGATTGAGCTTAACATTCCAATTTTTTTTTTTTTTTTTGCATTTTGTAAAACAGAAACTGCACTAAATATTGATATCCATAGAAATCAGTATCAAATCTATGGTGCACTCAATGATTTAAATTTTCTACAAATGCATAAAACACAGAAACAATATTCCTGTACCTGTATCTTTAAAAATTAACTTGTTTTCAAAGTGATTCCATTTCACTGCCTATTCAAAACCCAAGTTCTGTAGTGATTTCTAATAGCTTAGAATAAGTCTAGTTGACTTGAAAGTTTTGATTCACATCATCAGATTCTAACATATAGCTTATAAACAATTCTGAACGTACTGGGTCTACTTGTTTAAAACTACTTTAGAAGTTAACTTTCCTTAACTCTTAGATATTGAATTGCTAGCAATTTTCCTCATTTTGAGATATATTCTATTCCGAATTTGCATATTACAGAGTTATCTGCACCTGCGGG NI_1_(paired)_trimmed_(paired)_contig_2468 GCTCAACTCAATGTCTGTGATCCTCTCCATTGTTCTCTCCTAGAATAAAAACAAAAGTACAAAATCAGCGCTCATTCATATCAATCATAGGAAAGTACCTATATCTTTATAGAGAGAACACAAGCACCCACATGTTATATTGCAATTAGCTGGATGCATACCCCTACCATGATATGTTAACTTAAAACCCAAGGTTTATATATATTGACTAGCACTTATAATGCTAAATGATATAGCATTATTAAAATGGGAAATTAAAAGTAATACAATTGAACGTAAGTGCTATACAATGAACATAGCTTATGCAACATTTCCATGCATTGCTTTTATTTGCATTAAAATAAACTTTTAAATCATGCAATGATAATAAGAAAATCAGGAAAAGCCATCAACCAGCAAAAAATTCAAAACAAGAATTAAAATTTTAAATCATAAATCATTACTGTGCATTTAAGGAAGGTTATCATCAACAGTATAATAGGCAGTGATTAATTTTGAAAGCAATAATATAAGACAACTGGGATCAATGTTTTGCAGCTAAAAGTGCTATTAATGCACTAGTACCTGTAAAAGCAGATTGAAAAAGAACATTGCAGCCAGTCGATAAAAGCCATGTTTATCACAACCTTTTCAGCAAGACCAATACATTTTTATATGAGCCTGACGCCTTCATTTTACATTGAATTTGAATTTACAACTGGATGCCATTTAGCAATGTCCTGATAACAGGTCAAAAGGATGAAGGAATTTGCAGGAAAAGCGAAGAGGATCTATATCTATAAGCTAGCTATATATATAGAGGCATTGCAGGTAGCGAAGGGCAAAACCTGACACAAGGTATACGTACGCATGCTAGAAAATGAGATAATTGACATTTCATTGTCAAAAATAATGTTCAGGTTTTAATATCTATTTGAAGAATAATCTTATCAGCTTCAATAATGATTTTCTTTAAAAACTAGATAAATGCACCCAAAAAAAATGTTTTTGAAGTATGTTTATATATTT
I wish the community can help me.
Grettings.
I finally made it. Thanks for your work @Kevin Blighe.
with awk:
input:
output: