今天主要来说一下reparation和coalesce的用法和区别:
先看一下下面的代码吧:
package test
import org.apache.spark.{SparkConf, SparkContext}
object RddTest {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("localTest").setMaster("local[2]")
val sc = new SparkContext(conf)
val rdd1 = sc.parallelize(List("hello","jason","jim","vin"),5)
println(rdd1.partitions.length) //输出5
val rdd3 = rdd1.repartition(10)
println(rdd3.partitions.length) //输出10
val rdd4 = rdd1.coalesce(10,true)
println(rdd4.partitions.length) //输出10
}
}
从上面的demo中可以看到coalesce和repartition都是用来对RDD的分区重新划分的,下面我们来看一下这两个方法的源码.如下:
版权声明:本文为xianpanjia4616原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。