一. 全量接增量概述
如果已经有了全量的离线 Hoodie 表,需要接上实时写入,并且保证数据不重复,可以开启 index bootstrap 功能。
如果觉得流程冗长,可以在写入全量数据的时候资源调大直接走流模式写,全量走完接新数据再将资源调小(或者开启限流功能)。
WITH参数:
名称 | Required | 默认值 | 说明 |
---|---|---|---|
index.bootstrap.enabled | true | false | 开启索引加载,会将已存表 |
index.partition.regex | false | * | 设置正则表达式进行分区筛选,默认为加载全部分区 |
使用流程:
- create table 创建和 Hoodie 表对应的语句,注意 table type要正确
- 设置 index.bootstrap.enabled = true 开启批量加载功能
- 重启任务将 index.bootstarp.enabled 关闭, 参数配置到合适大小,如果RowDataToHoodieFunction 和 BootstrapFunction 并发不同,可以重启避免shuffle
版权声明:本文为u010520724原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。