前言:
虽然目前我们大多数数据从数据库取数或者爬虫获取了,但是有些情况下我们需要对经营数据进行加工,这些数据只能给部分管理者查看,因此需要单独建立经营分析的库来存储手工的数据,而能大批量处理手工数据的地方,避免不了要去接触EXCEL。EXCEL作为办公软件的三剑客,在日常工作中出场率也太高了吧。下面来介绍怎么批量获取我们需要的数据。
一、批量获取数据的前提条件
1、公共的字段名
竟然是批量获取数据,当然这些数据的列名,基本上是长一样,这样我们才能批量将相似的数据存到对应的同一个表里面,然后用于经营分析。比如我们获取10个月的用电数据,然后这10个月的电费是分为10个EXcel存储的。EXCEL中的列名分别是用电日期、用电单位、用电度数、电价、电费。当然我们可以因为需要的改变,可以在第8 9 10个月的EXCEL表中增加抄表人、确认时间等。但他们主体都是前面说到的用电日期、用电单位、用电度数、电价、电费,只是我们的底表需要多增加两个字段来存储抄表人、确认时间。
2、相同的开始行
这个是因为,我们需要获取对应的列名做为数据流来传递数据,如果我们的列名有的存储在第一行、有的在第二行等等,此时就会因为获取不到列名导致读取数据失败。
二、批量读取EXCEL程序
转换一共包括三步,获取
文件名-EXCEL输入-表输出
1、获取文件名
这一步包括指定批量获取EXCEL文件存储的位置,如图所示文件存储在D:\etl\excel_loop,然后过滤任何是EXCEL的文件,如.*.xlsx通配符为获取该文件夹下面所有的EXCEL表名。
如图所示,或者EXCEL_LOOP下面的test1/test2/test3的文件数据。
2、EXCEL输入
这个步骤主要通过前面传输过来的表名来获取对应的数据,需要注意的是,在这一步需要选择一个EXCEL来指定获取的字段名称和获取的是哪个sheet的数据。如下图所示。
3、表输出
表输出和其他步骤都是一样的没有什么特殊的操作,到这一步就完成了EXCEL的批量获取数据了,是不是非常的简单,不需要写一行代码,只需要懂通配符的语法即可。