控制spark直连kafka秒级传输量

Post author:xfxia
Post published:2023年8月25日
Post category:其他

sparkConf.set(“spark.streaming.kafka.maxRatePerPartition”, “50000”)

这个参数的意思是每个分区每秒最大拉取50000条数据,适用于数据积压时蜂拥而来的数据造成的oom

还有auto.offset.eariest这个值现在有两个分别是latest和earliest。

首先它俩有一个点的区分。当偏移量无效时,若使用latest时从最新的偏移量消费,用earliest时从该topic记录的最小的偏移量消费。我觉得这样的话又有了新的问题,首先是在根据无效偏移量读取时是否会报错，这个错怎么解决，其次是这样会丢失数据应该，因为程序记录的偏移量应该是消费时的偏移量现在直接跳到最小或最新的偏移量时,之前的数据全部丢失。

原文链接：https://blog.csdn.net/shuaidong_521/article/details/117548906

你可能也喜欢