开源大数据数据质量监控调研

  • Post author:
  • Post category:其他


开源工具选择不多,目前了解到的就以下3种:

Qualitis

griffin

DolphinScheduler(最近有人上传了分支,支持数据质量监控功能)

1 Qualitis

腾讯微众银行开源,主要是看到依赖很多腾讯自己的大数据开源组件,感觉肯定很重了,运维弄不了,直接pass了。

2 Griffin

ebay开源工具,调研的时候看到工具功能特别全,实际自己编译完成之后才知道有点坑。

编译了两个版本0.5.0,0.6.0,0.5版本需要自己对照源码去加Connector支持出hive以外的数据源。

0.6版本提供了JDBCBasedDataConnector。

griffin有以下不满足项目需求的点:

1 多数据源问题

griffin 0.6版本才有关于jdbc源的代码,目前文档较少,项目主要应用是mysql hive mongodb数据源整合,数据质量监控。目前看mongodb不支持。mysql整合需要配置,需熟悉一些griffin架构、源码才配置成功。

2 不支持邮件告警功能。

图表展示功能还可以,但是没有阈值监控报警。

3 依赖较多

下图为官网的griffin依赖,目前项目中没有用到livy 跟es,所以还需搭建这两个环境(livy还好,更像一个spark插件)

3 DolphinScheduler

国内开源的工作流任务调度平台,个人感觉比zakaban、oozie好用,目前我们项目中调度都是使用海豚。调研数据质量监控看到一篇DolphinScheduler csdn官博的关于海豚支持数据质量监控的文章

基于 DolphinScheduler 的数据质量检查实践

。突然来了兴趣。

需下载github源码编译。目前在测试功能和测试是否对原有功能有所影响。目前看能满足项目中大部分数据质量监控功能。测试完毕准备上线。

对于我们项目目前缺点是仍然不支持非jdbc数据源。



版权声明:本文为qq_33684569原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。