参考基因组不好，选择无参还是有参啊？

2020-08-30 13:12:39

OmicShare问答第五期

有参RNAseq数据分析

OmicShare问答栏目由各位OmicShare网友在线交流课堂中，问交流嘉宾的问答整理。旨在解答众网友的疑问，普度众生。所以，你来问我呀。

www.omicshare.com

问1：EBseq跟edgeR 结果差很大，应该相信哪一个？

答：可以选择更符合实验预期的结果。提醒一下，先确认下两个软件的参数是否是一致。

问2：无参物种能不能重构转录本？

答:不能。无参物种的转录组序列来源拼接组装的结果，不能再比对的时候再重构转录本。所以无参物种不存在重构转录本问题。

问3：对于参考基因组不好的情况下，选择无参还是有参？

答：只要有参考基因组，优先推荐使用参考基因组来做分析。对于基因组拼接来说比较难的部分是重复区，基因组装质量不好主要是因为重复序列。基因组编码区的序列无论是杂合率或重复性都比较好，所以相对容易拼接。编码区的组装质量一般较好。所以请优先使用参考基因组。

问4：无参也有可变剪切吗？可靠吗？

答：目前trinity结果会做聚类，所以在同一聚类簇下面不同的Unigene认为是可变剪切。

但无参RNA-seq 可变剪切是不可靠的。如果是无参物种，就没有必要关心可变剪切，关心基因层面的表达量比较现实。

问5：高倍体物种cuffdiff ，是否需要去除多处比对的序列呢？

答：多倍体还是建议不要去除多重比对的reads，如果去除可能对结果影响会比较大。因为多重比对reads在多倍体物种中比较普遍，应该让软件来分配。另外，高倍体是指的同源四倍体还是异源多倍体，如果是异源多倍体，那么多重比对的序列还是比较少的。当然如果是同源多倍体也就不存在多重比对的问题了。

问6：转录组找snp 或者编辑位点要去RNA 冗余（duplication）吗？

答：不需要。重测序的话，的确需要去除PCR导致的冗余。但RNA-seq产生的read 冗余，可能是真实的冗余。这是因为RNA-seq的测序深度大大高于重测序。RNA-seq call SNP要解决的问题主要不是reads 冗余，其主要有2个问题会影响SNP 准确性：

基因编辑，基因编辑的存在会导致很多SNP变异并不是DNA层面的，而是转录过程中修饰导致新的碱基。
RNA-seq存在大量可变剪切，容易导致比对错误而产生很多大量假阳性SNP。如果RNA-seq要call SNP，需要把内含子及外显子边界周围（例如5bp以内）的SNP去除掉，因为这些区域的SNP假阳性比较高。

问7：拼接结果中出现了好多小于测序片段150bp的高丰度转录本基因（100bp左右），还有匹配到线粒体tRNA上的，这种情况可能吗？

答：这是完全存在的。trinity拼接并不是用150bp的读长来做拼接，而是将读长拆成更小的kmer来做拼接，很有可能kmer拆掉以后就装不回去，所以是可能出现片段长度比reads更短，这是合理的。

出现很多高丰度的小转录本，这个问题很难回答，可以考虑将这些小转录本比对到NR 或NT库，看下这些小转录本是什么东西，再做判断。先排除下是否是污染，然后排除是不是核糖体RNA。

问8：lncRNA 测序结果显示几乎都是假基因，这样的结果可信吗？

答：假基因其实是失活的编码基因，也是有调控功能的。比如人类基因组里面很有名的PTEN基因就有多个同源的假基因。假基因也是lncRNA的一部分，所以不存在不可信的问题。只是说假基因表达量比较高，存在怎样的生物学问题。比如假基因虽然不表达，但是依然可以结合microRNA，所以可以通过ceRNA作用来影响原来功能基因。所以假基因是有功能的，如果丰度高还是可以关注。

问9：无参转录组可以确定哪些是多拷贝，哪些是单拷贝基因？

答：可以分析，但结果并不十分可靠。例如，“单拷贝基因”可能是由于其他家族成员没有表达的多拷贝基因。而“多拷贝基因”也可能是多个可变剪切被重复组装的单拷贝基因。尽管如此，我们依然会使用无参转录组的结果进行基因拷贝数分析，进而进行比较转录组分析，只是误差会比较大。

更多有参RNAseq数据分析问答整理见论坛第3期在线交流贴，点击“阅读原文”或者在电脑端打开下方地址：

http://www.omicshare.com/forum/thread-1042-1-2.html