mapreduce:
基于磁盘的迭代,中间结果保存在文件中
spark:
基于内存的,中间结果无需落地磁盘,减少了磁盘IO的操作,DAG计算模型-可以减少shuffle次数
spark | mr |
---|---|
spark遇到宽依赖才会发生shuffle | 一次mr任务就会发生一次 |
spark在map端会完成排序 | mr在reduce端会进行归并排序 |
spark先放内存 | mr直接放磁盘 |
tez:
也有dag有向无关图,container重用,但部署繁琐
版权声明:本文为qq_37748919原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。