ETL工具 打破“传统数据整合平台” ;打破新噱头“ 数据中台”(即数据黑匣子);数据孤岛终结者!
建设数据中心其间有一重要且烦碎的数据治理工作即(数据清洗、数据过滤、数据转换、数据标准化……)
建数仓/数据中心 必备工具-ETL工具:业界最出名的开源Kettle 与 国产老牌自研
Beeload
核心功能对比参考如下:
北京灵蜂
Beeload
& Pentaho Kettle 核心功能对比
序号 |
技术参数 |
Beeload |
Kettle |
1 | 整库迁移或批量表导出 | 自动映射源表结构到目标库,支持批量映射。 | 手工定义java class 完成表结构映射。 |
2 | 时间戳同步 | 要求源表包含时间戳字段,每次同步时,根据上次记录的断点读取未同步的数据,同步结束后记录断点。所有逻辑全部自动完成,无需手工扩展。 | 要求目标表包含和源表一样的时间戳字段,每次同步时通过MAX()函数获取目标表已经同步数据的最大时间戳,然后在源表设置过滤条件读取上次同步后产生的记录,需要手工编辑SQL处理上述逻辑。 |
3 | 触发器同步 | 软件自动在源库创建触发器和临时表,数据同步后,自动删除临时表中的数据。 | 用户自己手工创建触发器及临时表,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入临时表,抽取线程从临时表中抽取数据后需要手工删除临时表数据。 |
4 | 全表比对 |
分为是否进行差异更新,差异更新时,通过计算每条记录的校验码,对源表和目标表记录进行比对,目标表记录不存在则插入,目标记录不相同则更新,目标表包含源表没有的记录则删除。 非差异更新时,读取检查源表记录是否存在于目标表,不存在则插入,存在则跟新目标表。 |
将每一条数据的每列内容进行比对,比对完了以后追加一个状态字段用来描述这条数据的状态,共有四种状态:identical( 未改变)、changed(改变)、new(新增)、deleted(删除),所对应的操作就是增、删、改,接下来就可以借助kettle的switch/case 组件按照操作类型执行不同的操作了。 |
5 | 任务调度 | 包含作业调度和工作流调度,统一管理任务的运行。 | 软件自身定时调度功能不稳定,需要在系统计划中部署任务。 |
6 | 定制开发 | 内置集成脚本开发环境,所有图形配置均可转为脚本执行,脚本支持逐行断点调试。 | 使用Java Script 脚本或定义 java class. |
Beeload
工作流管理界面
Beeload
任务调度界面
Beeload
脚本调试界面