Hive的底层计算框架默认是MapReduce,还有两种是Tez和Spark这几种的区别是什么?计算速度上为什么会有明显的差异?

  • Post author:
  • Post category:其他

mapreduce:
基于磁盘的迭代,中间结果保存在文件中
spark:
基于内存的,中间结果无需落地磁盘,减少了磁盘IO的操作,DAG计算模型-可以减少shuffle次数

spark mr
spark遇到宽依赖才会发生shuffle 一次mr任务就会发生一次
spark在map端会完成排序 mr在reduce端会进行归并排序
spark先放内存 mr直接放磁盘

tez:
也有dag有向无关图,container重用,但部署繁琐


版权声明:本文为qq_37748919原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。