开源ETL Kettle 与 老牌国产自研Beeload 核心功能对比

  • Post author:
  • Post category:其他



ETL工具 打破“传统数据整合平台” ;打破新噱头“ 数据中台”(即数据黑匣子);数据孤岛终结者!

建设数据中心其间有一重要且烦碎的数据治理工作即(数据清洗、数据过滤、数据转换、数据标准化……)

建数仓/数据中心 必备工具-ETL工具:业界最出名的开源Kettle 与 国产老牌自研


Beeload


核心功能对比参考如下:

北京灵蜂

Beeload

& Pentaho Kettle 核心功能对比

序号
技术参数



Beeload



Kettle
1 整库迁移或批量表导出 自动映射源表结构到目标库,支持批量映射。 手工定义java class 完成表结构映射。
2 时间戳同步 要求源表包含时间戳字段,每次同步时,根据上次记录的断点读取未同步的数据,同步结束后记录断点。所有逻辑全部自动完成,无需手工扩展。 要求目标表包含和源表一样的时间戳字段,每次同步时通过MAX()函数获取目标表已经同步数据的最大时间戳,然后在源表设置过滤条件读取上次同步后产生的记录,需要手工编辑SQL处理上述逻辑。
3 触发器同步 软件自动在源库创建触发器和临时表,数据同步后,自动删除临时表中的数据。 用户自己手工创建触发器及临时表,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入临时表,抽取线程从临时表中抽取数据后需要手工删除临时表数据。
4 全表比对

分为是否进行差异更新,差异更新时,通过计算每条记录的校验码,对源表和目标表记录进行比对,目标表记录不存在则插入,目标记录不相同则更新,目标表包含源表没有的记录则删除。

非差异更新时,读取检查源表记录是否存在于目标表,不存在则插入,存在则跟新目标表。

将每一条数据的每列内容进行比对,比对完了以后追加一个状态字段用来描述这条数据的状态,共有四种状态:identical( 未改变)、changed(改变)、new(新增)、deleted(删除),所对应的操作就是增、删、改,接下来就可以借助kettle的switch/case 组件按照操作类型执行不同的操作了。
5 任务调度 包含作业调度和工作流调度,统一管理任务的运行。 软件自身定时调度功能不稳定,需要在系统计划中部署任务。
6 定制开发 内置集成脚本开发环境,所有图形配置均可转为脚本执行,脚本支持逐行断点调试。 使用Java Script 脚本或定义 java class.


Beeload

工作流管理界面


Beeload

任务调度界面


Beeload

脚本调试界面