无参转录组工具评估和流程展示 – 小飞侠

无参转录组工具评估和流程展示

Post author:xfxia
Post published:2023年7月16日
Post category:其他

微信公众号：

https://mp.weixin.qq.com/s/4HANWJY4oL7jGziroHfEpQ

无参转录组分析工具评估

研究人和小鼠类似的基因组注释比较完善的物种，是比较舒服的。想用什么数据，就可以找到什么数据。不过更多的物种是没有基因组数据或基因组注释不完整的，这时想获得基因的序列，做差异基因的分析时，相比于花大价钱测基因组，测不同组织或处理条件下的转录组是一个物美价廉的选择。既可以获得基因序列，又可以获得表达水平。这时就需要用到转录组的重头组装分析。

前面的文章

39个转录组分析工具，120种组合评估，转录组分析不再纠结

中，比较了39个常用转录组分析工具包括序列比对、序列拼装、基因表达定量和基因差异分析工具，评估出了最优的分析组合。

在同一篇Nature Communication文章中，还对无参转录组分析工具进行了评估，包括
Trinity
、
Oases
和
SOAPdenovo-Trans
。

不同的从头转录组组装技术性能比较。a.转录本长度的分布。不同的颜色块表示对转录本长度的分类。横轴为不同长度的转录本的数目统计。这个图用直方图可能更清晰。b. 转录本长度N10-N50值的分布。不同的从头转录组组装技术性能比较。a.转录本长度的分布。b. N10-N50值。c. 不同表达百分位数的ExN50值。与b图不同，c图是把用于评估拼装工具对低表达转录本和高表达转录本的敏感度。横轴表示样品的表达量分组，从左至右为top 10%，top 20%，…， top 90%, top 100% (全部基因)。纵轴为不同表达集合的基因的N50值。

评估结果表明：

Trinity往往预测出更长的亚型、更多的基因和转录本，但许多转录本比较散。
在所有样品中，Oases获得了最高的N10-N50值，表明在检测长的亚型方面具有优势。
SOAPdenovo-Trans在高表达基因的位置有一个峰 (较小的表达百分位数)，表明它可以更好地检测高表达转录本。
Oases在图c的最右侧N50值较高，表明可以有效检测低表达基因。

无参转录组常见分析流程和结果解释

这些都是在转录本长度水平做的评估。在实际应用中，转录本拼装也不一定是越长越好，而是拼装的越完整越好，后续进行基因克隆时才会更方便。

根据我们的经验，一个完整的无参转录组分析需要包括下面几部分内容,测序质量评估，拼装质量评估，基因功能注释，表达定量，样品重复性评估，差异基因鉴定，功能富集分析，共表达基因筛选。

测序质量的评估具体见

NGS基础 – FASTQ格式解释和质量评估

。

拼装质量

拼装质量评估包括前面提到的拼装长度的评估

真核生物有
248
个极其保守的基因，评估拼装出的转录本对这些基因的覆盖状态，是评估拼装是否完整的一个方式。如下表所示，拼装的转录本包含了
91%
的完整的真核保守基因；如果考虑部分匹配，则覆盖了
99%
的真核保守基因。

拼装的基因与SwissProt数据库中已经注释的基因的匹配百分比。一般认为匹配度越高，越有可能拼装出的为全长序列。

拼装的基因编码框的完整性和编码的蛋白的完整性。预测编码的蛋白时不只考虑了完整读码框，还考虑到由于拼接的不完整导致只拼出部分编码序列，但根据同源比对，也可以翻译出蛋白。这样提高了能鉴定出的蛋白的比例。

基因功能注释

功能注释比较常见的是注释到
Gene Ontology
，从整体看拼装出的基因的功能分布。

注释到TrEMBL、Pfam、KEGG和SwissProt数据库的基因的数目

转录因子的家族注释

样品重复性评估和聚类

单个样品的重复性一般从比对reads数的比较，不同样品基因表达的线性比较 (MA-plot)，样品间Pearson相关系数的计算等。

样品整体的聚类，不同样品之间，同一样品不同重复之间的相关性比较。

主成分分析

差异基因图谱

差异基因的鉴定一般使用
edgeR
(基于Count的差异基因鉴定工具的评估也在前文有过比较分析)，常用的表示方式是MA-plot和火山图。

另外一个就是样品特异的表达热图了。

功能富集分析

功能富集分析对于查看差异基因的功能分布，指导下一步的研究具有重要意义。

表达模式聚类分析

同样表达模式的基因可能参与到同样的功能通路里面，是预测未知基因功能的一个方式。在这个图除了展示相同变化模式(正相关)的基因，还选择了相反变化模式(负相关)的基因。这个也可以利用Cytoscape绘制正负相关网络图。

图形绘制

上面提到的图形都可以通过往期的脚本进行绘制

寻求帮助

转录组拼装对计算资源的要求是比较大的，尤其是内存资源，一般内存的消耗与数据量是1:1的关系。即如果测序了200 G的数据，拼装需要200 G的内存。同一个物种的测序为了最大限度的拼装质量，一般采用混合拼装的方式。后续的分析也需要不断地调整。

现在社会的发展越来越强调专人专事，这么繁琐的事情就交给我们来做吧，质优价廉，在分析时间、速度和质量上都能最大化效益。

生信宝典，换个角度学生信

http://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247484402&idx=1&sn=f214ec35ff71bc4577f884584e9c9732&chksm=ec0dc678db7a4f6e40c73a6656cd7479e4cffe603a7ed7a26ad5cca72a428c78bee152a2aaee#rd

版权声明：本文为qazplm12_3原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/qazplm12_3/article/details/78040777