无参转录组工具评估和流程展示

  • Post author:
  • Post category:其他



微信公众号:

https://mp.weixin.qq.com/s/4HANWJY4oL7jGziroHfEpQ

无参转录组分析工具评估

研究人和小鼠类似的基因组注释比较完善的物种,是比较舒服的。想用什么数据,就可以找到什么数据。不过更多的物种是没有基因组数据或基因组注释不完整的,这时想获得基因的序列,做差异基因的分析时,相比于花大价钱测基因组,测不同组织或处理条件下的转录组是一个物美价廉的选择。既可以获得基因序列,又可以获得表达水平。这时就需要用到转录组的重头组装分析。

前面的文章

39个转录组分析工具,120种组合评估,转录组分析不再纠结

中,比较了39个常用转录组分析工具包括序列比对、序列拼装、基因表达定量和基因差异分析工具,评估出了最优的分析组合。

在同一篇Nature Communication文章中,还对无参转录组分析工具进行了评估,包括

Trinity



Oases



SOAPdenovo-Trans

不同的从头转录组组装技术性能比较。a.转录本长度的分布。不同的颜色块表示对转录本长度的分类。横轴为不同长度的转录本的数目统计。这个图用直方图可能更清晰。b. 转录本长度N10-N50值的分布。不同的从头转录组组装技术性能比较。a.转录本长度的分布。b. N10-N50值。c. 不同表达百分位数的ExN50值。与b图不同,c图是把用于评估拼装工具对低表达转录本和高表达转录本的敏感度。横轴表示样品的表达量分组,从左至右为top 10%,top 20%,…, top 90%, top 100% (全部基因)。纵轴为不同表达集合的基因的N50值。

评估结果表明:

  • Trinity往往预测出更长的亚型、更多的基因和转录本,但许多转录本比较散。
  • 在所有样品中,Oases获得了最高的N10-N50值,表明在检测长的亚型方面具有优势。
  • SOAPdenovo-Trans在高表达基因的位置有一个峰 (较小的表达百分位数),表明它可以更好地检测高表达转录本。
  • Oases在图c的最右侧N50值较高,表明可以有效检测低表达基因。

无参转录组常见分析流程和结果解释

这些都是在转录本长度水平做的评估。在实际应用中,转录本拼装也不一定是越长越好,而是拼装的越完整越好,后续进行基因克隆时才会更方便。

根据我们的经验,一个完整的无参转录组分析需要包括下面几部分内容,测序质量评估,拼装质量评估,基因功能注释,表达定量,样品重复性评估,差异基因鉴定,功能富集分析,共表达基因筛选。

测序质量的评估具体见

NGS基础 – FASTQ格式解释和质量评估

拼装质量

拼装质量评估包括前面提到的拼装长度的评估

真核生物有

248

个极其保守的基因,评估拼装出的转录本对这些基因的覆盖状态,是评估拼装是否完整的一个方式。如下表所示,拼装的转录本包含了

91%

的完整的真核保守基因;如果考虑部分匹配,则覆盖了

99%

的真核保守基因。

拼装的基因与SwissProt数据库中已经注释的基因的匹配百分比。一般认为匹配度越高,越有可能拼装出的为全长序列。

拼装的基因编码框的完整性和编码的蛋白的完整性。预测编码的蛋白时不只考虑了完整读码框,还考虑到由于拼接的不完整导致只拼出部分编码序列,但根据同源比对,也可以翻译出蛋白。这样提高了能鉴定出的蛋白的比例。

基因功能注释

功能注释比较常见的是注释到

Gene Ontology

,从整体看拼装出的基因的功能分布。

注释到TrEMBL、Pfam、KEGG和SwissProt数据库的基因的数目

转录因子的家族注释

样品重复性评估和聚类

单个样品的重复性一般从比对reads数的比较,不同样品基因表达的线性比较 (MA-plot),样品间Pearson相关系数的计算等。

样品整体的聚类,不同样品之间,同一样品不同重复之间的相关性比较。

主成分分析

差异基因图谱

差异基因的鉴定一般使用

edgeR

(基于Count的差异基因鉴定工具的评估也在前文有过比较分析),常用的表示方式是MA-plot和火山图。

另外一个就是样品特异的表达热图了。

功能富集分析

功能富集分析对于查看差异基因的功能分布,指导下一步的研究具有重要意义。

表达模式聚类分析

同样表达模式的基因可能参与到同样的功能通路里面,是预测未知基因功能的一个方式。在这个图除了展示相同变化模式(正相关)的基因,还选择了相反变化模式(负相关)的基因。这个也可以利用Cytoscape绘制正负相关网络图。

图形绘制

上面提到的图形都可以通过往期的脚本进行绘制

寻求帮助

转录组拼装对计算资源的要求是比较大的,尤其是内存资源,一般内存的消耗与数据量是1:1的关系。即如果测序了200 G的数据,拼装需要200 G的内存。同一个物种的测序为了最大限度的拼装质量,一般采用混合拼装的方式。后续的分析也需要不断地调整。

现在社会的发展越来越强调专人专事,这么繁琐的事情就交给我们来做吧,质优价廉,在分析时间、速度和质量上都能最大化效益。

生信宝典,换个角度学生信


http://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247484402&idx=1&sn=f214ec35ff71bc4577f884584e9c9732&chksm=ec0dc678db7a4f6e40c73a6656cd7479e4cffe603a7ed7a26ad5cca72a428c78bee152a2aaee#rd



版权声明:本文为qazplm12_3原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。