toppic
当前位置: 首页> 修真小说> 参考基因组不好,选择无参还是有参啊?

参考基因组不好,选择无参还是有参啊?

2020-08-30 13:12:39

OmicShare问答第五期

有参RNAseq数据分析

OmicShare问答栏目由各位OmicShare网友在线交流课堂中,问交流嘉宾的问答整理。旨在解答众网友的疑问,普度众生。所以,你来问我呀。

 

www.omicshare.com


 

问1:EBseq跟edgeR 结果差很大,应该相信哪一个?

答:可以选择更符合实验预期的结果。提醒一下,先确认下两个软件的参数是否是一致。



问2:无参物种能不能重构转录本?

答:不能。无参物种的转录组序列来源拼接组装的结果,不能再比对的时候再重构转录本。所以无参物种不存在重构转录本问题。



问3:对于参考基因组不好的情况下,选择无参还是有参?

答:只要有参考基因组,优先推荐使用参考基因组来做分析。对于基因组拼接来说比较难的部分是重复区,基因组装质量不好主要是因为重复序列。基因组编码区的序列无论是杂合率或重复性都比较好,所以相对容易拼接。编码区的组装质量一般较好。所以请优先使用参考基因组。



问4:无参也有可变剪切吗?可靠吗?

答:目前trinity结果会做聚类,所以在同一聚类簇下面不同的Unigene认为是可变剪切。

但无参RNA-seq 可变剪切是不可靠的。如果是无参物种,就没有必要关心可变剪切,关心基因层面的表达量比较现实。



问5:高倍体物种cuffdiff ,是否需要去除多处比对的序列呢?

答:多倍体还是建议不要去除多重比对的reads,如果去除可能对结果影响会比较大。因为多重比对reads在多倍体物种中比较普遍,应该让软件来分配。另外,高倍体是指的同源四倍体还是异源多倍体,如果是异源多倍体,那么多重比对的序列还是比较少的。当然如果是同源多倍体也就不存在多重比对的问题了。

 


问6:转录组找snp 或者编辑位点要去RNA 冗余(duplication)吗?

答:不需要。重测序的话,的确需要去除PCR导致的冗余。但RNA-seq产生的read 冗余,可能是真实的冗余。这是因为RNA-seq的测序深度大大高于重测序。RNA-seq call SNP要解决的问题主要不是reads 冗余,其主要有2个问题会影响SNP 准确性:

  1. 基因编辑,基因编辑的存在会导致很多SNP变异并不是DNA层面的,而是转录过程中修饰导致新的碱基。

  2. RNA-seq存在大量可变剪切,容易导致比对错误而产生很多大量假阳性SNP。如果RNA-seq要call SNP,需要把内含子及外显子边界周围(例如5bp以内)的SNP去除掉,因为这些区域的SNP假阳性比较高。


 

问7:拼接结果中出现了好多小于测序片段150bp的高丰度转录本基因(100bp左右),还有匹配到线粒体tRNA上的,这种情况可能吗?

答:这是完全存在的。trinity拼接并不是用150bp的读长来做拼接,而是将读长拆成更小的kmer来做拼接,很有可能kmer拆掉以后就装不回去,所以是可能出现片段长度比reads更短,这是合理的。

出现很多高丰度的小转录本,这个问题很难回答,可以考虑将这些小转录本比对到NR 或NT库,看下这些小转录本是什么东西,再做判断。先排除下是否是污染,然后排除是不是核糖体RNA。



问8:lncRNA 测序结果显示几乎都是假基因,这样的结果可信吗?

答:假基因其实是失活的编码基因,也是有调控功能的。比如人类基因组里面很有名的PTEN基因就有多个同源的假基因。假基因也是lncRNA的一部分,所以不存在不可信的问题。只是说假基因表达量比较高,存在怎样的生物学问题。比如假基因虽然不表达,但是依然可以结合microRNA,所以可以通过ceRNA作用来影响原来功能基因。所以假基因是有功能的,如果丰度高还是可以关注。

 

 

问9:无参转录组可以确定哪些是多拷贝,哪些是单拷贝基因?

答:可以分析,但结果并不十分可靠。例如,“单拷贝基因”可能是由于其他家族成员没有表达的多拷贝基因。而“多拷贝基因”也可能是多个可变剪切被重复组装的单拷贝基因。尽管如此,我们依然会使用无参转录组的结果进行基因拷贝数分析,进而进行比较转录组分析,只是误差会比较大。

 


更多有参RNAseq数据分析问答整理见论坛第3期在线交流贴,点击“阅读原文”或者在电脑端打开下方地址:

http://www.omicshare.com/forum/thread-1042-1-2.html



友情链接