Hive的底层计算框架默认是MapReduce，还有两种是Tez和Spark这几种的区别是什么？计算速度上为什么会有明显的差异？ – 小飞侠

Hive的底层计算框架默认是MapReduce，还有两种是Tez和Spark这几种的区别是什么？计算速度上为什么会有明显的差异？

Post author:xfxia
Post published:2023年3月18日
Post category:其他

mapreduce:
基于磁盘的迭代,中间结果保存在文件中
spark:
基于内存的,中间结果无需落地磁盘，减少了磁盘IO的操作,DAG计算模型-可以减少shuffle次数

spark	mr
spark遇到宽依赖才会发生shuffle	一次mr任务就会发生一次
spark在map端会完成排序	mr在reduce端会进行归并排序
spark先放内存	mr直接放磁盘

tez:
也有dag有向无关图，container重用，但部署繁琐

版权声明：本文为qq_37748919原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/qq_37748919/article/details/107465317

Tags: map