kettle开发篇-批量读取EXCEL文件-Day5

  • Post author:
  • Post category:其他


前言:

虽然目前我们大多数数据从数据库取数或者爬虫获取了,但是有些情况下我们需要对经营数据进行加工,这些数据只能给部分管理者查看,因此需要单独建立经营分析的库来存储手工的数据,而能大批量处理手工数据的地方,避免不了要去接触EXCEL。EXCEL作为办公软件的三剑客,在日常工作中出场率也太高了吧。下面来介绍怎么批量获取我们需要的数据。

一、批量获取数据的前提条件

1、公共的字段名

竟然是批量获取数据,当然这些数据的列名,基本上是长一样,这样我们才能批量将相似的数据存到对应的同一个表里面,然后用于经营分析。比如我们获取10个月的用电数据,然后这10个月的电费是分为10个EXcel存储的。EXCEL中的列名分别是用电日期、用电单位、用电度数、电价、电费。当然我们可以因为需要的改变,可以在第8 9 10个月的EXCEL表中增加抄表人、确认时间等。但他们主体都是前面说到的用电日期、用电单位、用电度数、电价、电费,只是我们的底表需要多增加两个字段来存储抄表人、确认时间。

2、相同的开始行

这个是因为,我们需要获取对应的列名做为数据流来传递数据,如果我们的列名有的存储在第一行、有的在第二行等等,此时就会因为获取不到列名导致读取数据失败。

二、批量读取EXCEL程序

转换一共包括三步,获取

文件名-EXCEL输入-表输出

image.png

1、获取文件名

这一步包括指定批量获取EXCEL文件存储的位置,如图所示文件存储在D:\etl\excel_loop,然后过滤任何是EXCEL的文件,如.*.xlsx通配符为获取该文件夹下面所有的EXCEL表名。

image.png

如图所示,或者EXCEL_LOOP下面的test1/test2/test3的文件数据。
image.png

2、EXCEL输入

这个步骤主要通过前面传输过来的表名来获取对应的数据,需要注意的是,在这一步需要选择一个EXCEL来指定获取的字段名称和获取的是哪个sheet的数据。如下图所示。
image.png

image.png

image.png

3、表输出

表输出和其他步骤都是一样的没有什么特殊的操作,到这一步就完成了EXCEL的批量获取数据了,是不是非常的简单,不需要写一行代码,只需要懂通配符的语法即可。
image.png



版权声明:本文为qq_29061315原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。