sparkConf.set(“spark.streaming.kafka.maxRatePerPartition”, “50000”)
这个参数的意思是每个分区每秒最大拉取50000条数据,适用于数据积压时蜂拥而来的数据造成的oom
还有auto.offset.eariest这个值现在有两个分别是latest和earliest。
首先它俩有一个点的区分。当偏移量无效时,若使用latest时从最新的偏移量消费,用earliest时从该topic记录的最小的偏移量消费。我觉得这样的话 又有了新的问题,首先是在根据无效偏移量读取时是否会报错,这个错怎么解决,其次是这样会丢失数据应该,因为程序记录的偏移量应该是消费时的偏移量 现在直接跳到最小或最新的偏移量时,之前的数据全部丢失。
版权声明:本文为shuaidong_521原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。