Hudi系列18:Hudi全量接增量

  • Post author:
  • Post category:其他




一. 全量接增量概述

如果已经有了全量的离线 Hoodie 表,需要接上实时写入,并且保证数据不重复,可以开启 index bootstrap 功能。

如果觉得流程冗长,可以在写入全量数据的时候资源调大直接走流模式写,全量走完接新数据再将资源调小(或者开启限流功能)。


WITH参数:

名称 Required 默认值 说明
index.bootstrap.enabled true false 开启索引加载,会将已存表
index.partition.regex false * 设置正则表达式进行分区筛选,默认为加载全部分区


使用流程:

  1. create table 创建和 Hoodie 表对应的语句,注意 table type要正确
  2. 设置 index.bootstrap.enabled = true 开启批量加载功能
  3. 重启任务将 index.bootstarp.enabled 关闭, 参数配置到合适大小,如果RowDataToHoodieFunction 和 BootstrapFunction 并发不同,可以重启避免shuffle



版权声明:本文为u010520724原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。