软件下载【文章最后面】
本文适用于PDF内容可复制就可以处理,如果您的PDF是图片内容是单纯的图片,要对图片进行OCR扫描后获取关键信息后进行处理详细见文章:
场景:从网站上下载的PDF文件一般都是以类似的形式命名,下载的量变大后逐个重命名后是个繁重耗时的工作。但PDF文件其实属性里都有着自己的论文题目,可以利用这一点来完成对PDF的重命名。
案例1:人事部人员扫描了几百份简历,保存为PDF格式,但是名字是一串数字,不好分辨,有没有能识别里面姓名内容并自动重命名文件的方法
案例2:财务小姐姐有的批量导出很多PDF电子发票,导出来大多是没办法区分的文件名,需要用发票号,发票代码,买方名字来重命名,后期对文件进行快速检索
有的人查过很多方法,都是一堆代码,看不懂,很多人搞不定,那么我们现在做成一种可视化的操作,点点鼠标就搞定。
下面我们用电子发票举例来说明,怎样批量的读取PDF文件的关键内容,关键信息来对PDF进行重命名操作,比如我们这次用:
购买方名字+发票代码+发票号
来举例说明
首先我们PDF我们能重命名,命名的部分全都是一样的,比如:发票号出现在固定位置,发票代码出现在固定位置,还有购买方的名字出现在固定位 例如下图:
无论怎么变,这些信息都是有的,我们会拿到坐标,然后去读取,对应位置的文字信息比如这两个位置的坐标,长宽度:
是从X轴,Y轴,长度,宽度,去读取数据,同样的方法,简历也是一样,姓名需要出现在固定位置,有判断的依据,最后把文件导入做好的软件内,进行数据处理就好了,
可以支持按照单个文件处理,也可以单个文件夹,多个文件夹处理,这个只能处理发票,需要处理其他文件要去锁定要处理文件的指定坐标就可以了,然后读取内容进行文字识别处理,抓出来关键信息,对文件进行重命名即可,
免费下载地址
:
百度网盘 :https://pan.baidu.com/s/1E-3DEntS_VMIrI3NLh4Wvw?pwd=6688