第五章 数据去重–不完全去重

  • Post author:
  • Post category:其他


通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。

打开Kettle工具,创建转换

配置文本文件输入控件

清除分隔符处的默认分隔符“;”,并单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框

添加对应的字段名称并指定数据类型

配置唯一行(哈希值)控件

运行转换repeat_transform并查看文件people.txt是否消除不完全重复的数据



版权声明:本文为m0_58220133原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。