MapReduce过程中setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系

Post author:xfxia
Post published:2023年9月14日
Post category:其他

Map首先将输出写到环形缓存当中，开始spill过程：

job.setPartitionerClass(PartitionClass.class);

【按key分区】map阶段最后调用。对key取hash值(或其它处理)，指定进入哪一个reduce

job.setSortComparatorClass(SortComparator.class);

【按key排序】每个分区内，对键或键的部分进行排序，保证分区内局部有序；

job.setGroupingComparatorClass(Grouptail.class);

【按key分组】构造一个key对应的value迭代器。同一分区中满足同组条件（可以是不同的key）的进入同一个Interator，执行一次reduce方法；

partiton是为了完成在shuffle阶段使用哪个reducetask。groupComparator是为了在一个reducetask下区分key的聚合。
举个栗子，在map阶段输出结果为1，一，2，二。设置reducetask数量为2，名字为r1，r2。
此时想把1，一，交给r1处理。2，二，交给r2处理。就需要自定义partiton通过返回值来完成。
但是1，一虽然进入了r1。但是r1，并不认为两者是相同的，也就是在输出的结果上并没有放在一行，而是两行。
如果想让输出结果放到一行，就需要重新定义groupComparator组件。
 ps：一个reducetask会输出一个文件。一个reduce阶段的key对应文件中的一行

https://blog.csdn.net/qq_20641565/article/details/65448582