开源工具选择不多,目前了解到的就以下3种:
Qualitis
griffin
DolphinScheduler(最近有人上传了分支,支持数据质量监控功能)
1 Qualitis
腾讯微众银行开源,主要是看到依赖很多腾讯自己的大数据开源组件,感觉肯定很重了,运维弄不了,直接pass了。
2 Griffin
ebay开源工具,调研的时候看到工具功能特别全,实际自己编译完成之后才知道有点坑。
编译了两个版本0.5.0,0.6.0,0.5版本需要自己对照源码去加Connector支持出hive以外的数据源。
0.6版本提供了JDBCBasedDataConnector。
griffin有以下不满足项目需求的点:
1 多数据源问题
griffin 0.6版本才有关于jdbc源的代码,目前文档较少,项目主要应用是mysql hive mongodb数据源整合,数据质量监控。目前看mongodb不支持。mysql整合需要配置,需熟悉一些griffin架构、源码才配置成功。
2 不支持邮件告警功能。
图表展示功能还可以,但是没有阈值监控报警。
3 依赖较多
下图为官网的griffin依赖,目前项目中没有用到livy 跟es,所以还需搭建这两个环境(livy还好,更像一个spark插件)
3 DolphinScheduler
国内开源的工作流任务调度平台,个人感觉比zakaban、oozie好用,目前我们项目中调度都是使用海豚。调研数据质量监控看到一篇DolphinScheduler csdn官博的关于海豚支持数据质量监控的文章
基于 DolphinScheduler 的数据质量检查实践
。突然来了兴趣。
需下载github源码编译。目前在测试功能和测试是否对原有功能有所影响。目前看能满足项目中大部分数据质量监控功能。测试完毕准备上线。
对于我们项目目前缺点是仍然不支持非jdbc数据源。