Question

Error with Rseqc infer_experiment - unknown datatype

0

Entering edit mode

5.1 years ago

newbie ▴ 140

I'm using rseqc on my samples bam file to check the strand specific. For this I used gencode gtf file. Initially I converted gencode gtf to bed file like:

This is how the gtf looks:

##description: evidence-based annotation of the human genome (GRCh38), version 27 (Ensembl 90)
##provider: GENCODE
##contact: gencode-help@sanger.ac.uk
##format: gtf
##date: 2017-08-01
chr1    HAVANA  gene    11869   14409   .   +   .   gene_id "ENSG00000223972.5"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; level 2; havana_gene "OTTHUMG00000000961.2";
chr1    HAVANA  transcript  11869   14409   .   +   .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-202"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    HAVANA  exon    11869   12227   .   +   .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-202"; exon_number 1; exon_id "ENSE00002234944.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    HAVANA  exon    12613   12721   .   +   .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-202"; exon_number 2; exon_id "ENSE00003582793.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    HAVANA  exon    13221   14409   .   +   .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-202"; exon_number 3; exon_id "ENSE00002312635.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";

I created bed file with:

awk '{ if ($0 ~ "transcript_id") print $0; else print $0" transcript_id \"\";"; }' gencode.v27.annotation.gtf | gtf2bed - > gencode.v27.annotation.bed

And then I used that bed file for infer experiment.py

python infer_experiment.py -r gencode.v27.annotation.bed -I Sample.sorted.bam

Error:

Reading reference gene model gencode.v27.annotation.bed ... Done
Loading SAM/BAM file ...  Finished
Total 0 usable reads were sampled
Unknown Data type

RNA-Seq rseqc inferexperiment gtf2bed • 3.7k views

ADD COMMENT • link 5.1 years ago by newbie ▴ 140

0

Entering edit mode

What does the BED file look like?

ADD REPLY • link 5.1 years ago by GenoMax 153k

0

Entering edit mode

gencode.v27.annotation.bed looks like this:

chr1    11868   12227   ENSG00000223972.5   .   +   HAVANA  exon    .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-202"; exon_number 1; exon_id "ENSE00002234944.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    11868   14409   ENSG00000223972.5   .   +   HAVANA  gene    .   gene_id "ENSG00000223972.5"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; level 2; havana_gene "OTTHUMG00000000961.2"; transcript_id "";
chr1    11868   14409   ENSG00000223972.5   .   +   HAVANA  transcript  .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-202"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    12009   12057   ENSG00000223972.5   .   +   HAVANA  exon    .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000450305.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-201"; exon_number 1; exon_id "ENSE00001948541.1"; level 2; transcript_support_level "NA"; ont "PGO:0000005"; ont "PGO:0000019"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000002844.2";
chr1    12009   13670   ENSG00000223972.5   .   +   HAVANA  transcript  .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000450305.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-201"; level 2; transcript_support_level "NA"; ont "PGO:0000005"; ont "PGO:0000019"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000002844.2";
chr1    12178   12227   ENSG00000223972.5   .   +   HAVANA  exon    .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000450305.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-201"; exon_number 2; exon_id "ENSE00001671638.2"; level 2; transcript_support_level "NA"; ont "PGO:0000005"; ont "PGO:0000019"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000002844.2";
chr1    12612   12697   ENSG00000223972.5   .   +   HAVANA  exon    .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000450305.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-201"; exon_number 3; exon_id "ENSE00001758273.2"; level 2; transcript_support_level "NA"; ont "PGO:0000005"; ont "PGO:0000019"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000002844.2";
chr1    12612   12721   ENSG00000223972.5   .   +   HAVANA  exon    .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000456328.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-202"; exon_number 2; exon_id "ENSE00003582793.1"; level 2; transcript_support_level "1"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000362751.1";
chr1    12974   13052   ENSG00000223972.5   .   +   HAVANA  exon    .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000450305.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-201"; exon_number 4; exon_id "ENSE00001799933.2"; level 2; transcript_support_level "NA"; ont "PGO:0000005"; ont "PGO:0000019"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000002844.2";
chr1    13220   13374   ENSG00000223972.5   .   +   HAVANA  exon    .   gene_id "ENSG00000223972.5"; transcript_id "ENST00000450305.2"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-201"; exon_number 5; exon_id "ENSE00001746346.2"; level 2; transcript_support_level "NA"; ont "PGO:0000005"; ont "PGO:0000019"; tag "basic"; havana_gene "OTTHUMG00000000961.2"; havana_transcript "OTTHUMT00000002844.2";

ADD REPLY • link 5.1 years ago by newbie ▴ 140

0

Entering edit mode

My bam file looks like this:

D00535:34:CBMGRANXX:6:2205:6601:17310   355 1   15311   1   92M =   15443   230 CTGGGGTCACAGAGCAAGGCAAAAGCAGCGCTGGGTACAAGCTCAAAACCATAGTGCCCAGGGCACTGCCGCTGCAGGCGCAGGCATCGCATGGGGEGGGGGGGGGGGGGGGGGGGGGGGGGFGGGGGGGGGGGGGGGGGGGGGGFGGGGGGGGGGGGGGGGGGGGGGGGGGGGGCGGGGGGGG    AS:i:0  ZS:i:0  XN:i:0  XM:i:0  XO:i:0  XG:i:0  NM:i:0  MD:Z:92 YS:i:0  YT:Z:CP XS:A:-  NH:i:6
D00535:34:CBMGRANXX:5:1213:8574:14560   99  1   15316   60  87M =   185835  150152  GTCACAGAGCAAGGCAAAAGCAGCGCTGGGTACAAGCTCAAAACCATAGTGCCCAGGGCACTGCCGCTGCAGGCGCAGGCATCGCAT BEFECGGGGGGGGGGGGGGEGGGFGEGGDGGGGGGGGGFGGGGECGGGGGGGGBGGGGGGGGGGGGGGGFGGGGGGGGGGGGGGG>G AS:i:0  ZS:i:0  XN:i:0  XM:i:0  XO:i:0  XG:i:0  NM:i:0  MD:Z:87 YS:i:0  YT:Z:CP XS:A:-  NH:i:1
D00535:34:CBMGRANXX:5:1102:16732:79088  403 1   15319   1   98M =   15268   -149    ACAGAGCAAGGCAAAAGCAGCGCTGGGTACAAGCTCAAAACCATAGTGCCCAGGGCACTGCCGCTGCAGGCGCAGGCATCGCATCACACCAGTGTCTG  GGGGGGGGGGGGGGGGGGGGGGGGGFGGGGGGGFGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGCCBCC  AS:i:0  ZS:i:0  XN:i:0  XM:i:0  XO:i:0  XG:i:0  NM:i:0  MD:Z:98 YS:i:0  YT:Z:CP XS:A:-      NH:i:2
D00535:34:CBMGRANXX:5:2210:17253:98932  355 1   15321   1   92M =   186076  150394  AGAGCAAGGCAAAAGCAGCGCTGGGTACAAGCTCAAAACCATAGTGCCCAGGGCACTGCCGCTGCAGGCGCAGGCATCGCATCACACCAGTGEGGCEGFGGGGBCDGB1<E/EGG/C@GGGCDDFCGD@F@9FGGGBFDFFG00/C0F>BGE@<GCCGGGDD<<EGGE>FGGGGGGGD@?G@CE    AS:i:0  ZS:i:0  XN:i:0  XM:i:0  XO:i:0  XG:i:0  NM:i:0  MD:Z:92 YS:i:0  YT:Z:CP XS:A:-  NH:i:6
D00535:34:CBMGRANXX:5:2210:17253:98932  355 1   15321   1   92M =   15555   332 AGAGCAAGGCAAAAGCAGCGCTGGGTACAAGCTCAAAACCATAGTGCCCAGGGCACTGCCGCTGCAGGCGCAGGCATCGCATCACACCAGTGEGGCEGFGGGGBCDGB1<E/EGG/C@GGGCDDFCGD@F@9FGGGBFDFFG00/C0F>BGE@<GCCGGGDD<<EGGE>FGGGGGGGD@?G@CE    AS:i:0  ZS:i:0  XN:i:0  XM:i:0  XO:i:0  XG:i:0  NM:i:0  MD:Z:92 YS:i:0  YT:Z:CP XS:A:-  NH:i:6
D00535:34:CBMGRANXX:5:1212:20722:89720  99  1   15321   1   93M =   185940  150257  AGAGCAAGGCAAAAGCAGCGCTGGGTACAAGCTCAAAACCATAGTGCCCAGGGCACTGCCGCTGCAGGCGCAGGCATCGCATCACACCAGTGTEFGF>GGGGGGGGGGGGEGCGGFGFFGGGGGGGGGGGGGGGGGFDGCGGGGF/FGGEGGGGGGGGEFG/EAGGGGGG<EBGG@GGGGBGEGDG  AS:i:0  ZS:i:0  XN:i:0  XM:i:0  XO:i:0  XG:i:0  NM:i:0  MD:Z:93 YS:i:0  YT:Z:CP XS:A:-  NH:i:6
D00535:34:CBMGRANXX:5:1212:20722:89720  355 1   15321   1   93M =   15419   195 AGAGCAAGGCAAAAGCAGCGCTGGGTACAAGCTCAAAACCATAGTGCCCAGGGCACTGCCGCTGCAGGCGCAGGCATCGCATCACACCAGTGTEFGF>GGGGGGGGGGGGEGCGGFGFFGGGGGGGGGGGGGGGGGFDGCGGGGF/FGGEGGGGGGGGEFG/EAGGGGGG<EBGG@GGGGBGEGDG  AS:i:0  ZS:i:0  XN:i:0  XM:i:0  XO:i:0  XG:i:0  NM:i:0  MD:Z:93 YS:i:0  YT:Z:CP XS:A:-  NH:i:6

Without rseqc simply looking at tags and genes can we tell whether data is strand specific or not. If so how?

ADD REPLY • link 5.1 years ago by newbie ▴ 140

0

Entering edit mode

can you please help me with this...for my previous comment.

ADD REPLY • link 5.1 years ago by newbie ▴ 140

0

Entering edit mode

No we can't tell by just looking at alignments. What result did you get from running the script?

ADD REPLY • link 5.1 years ago by GenoMax 153k

0

Entering edit mode

This is PairEnd Data Fraction of reads failed to determine: 0.0000

Fraction of reads explained by "1++,1--,2+-,2-+": 0.0047
Fraction of reads explained by "1+-,1-+,2++,2--": 0.9953

As "1+-,1-+,2++,2--" gets more signal which means fr-firststrand. So, in HISAT2 alignment step the –rna –strandness parameter will be RF.

A colleague of mine without rseqc by looking at tags and genes told me that the data is strand specific. But I'm curious to know how he said that.

ADD REPLY • link updated 5.1 years ago by GenoMax 153k • written 5.1 years ago by newbie ▴ 140

0

Entering edit mode

This means you have a standard (dUTP-based) strand-specific library. They may have done it looking at the XS:A tags. Every aligner does not do that so safer to check with the script.

ADD REPLY • link 5.1 years ago by GenoMax 153k

0

Entering edit mode

okay. you mean in the above bam it is seen that XS:A is given - so this tells the data is strand specific? Am I right? and how based on genes we can say that?

ADD REPLY • link 5.1 years ago by newbie ▴ 140

score 0 · Answer 1 · 2020-08-05

0

Entering edit mode

5.1 years ago

newbie ▴ 140

okay I found the solution. The problem is with chr In the bam file it is only number. So, now I removed chr in gtf and converted to bed and used rseqc and got the output without any error.

ADD COMMENT • link 5.1 years ago by newbie ▴ 140