前言:现在网络上有很多文章,安装包、代码都不全,胖哥对此重新梳理后,把用到的数据和代码全部奉上,如果想直接要数据和代码,请查看文章最后!!!
说明:最近由于个人的需求,需要从一些图片上,把文字弄出来;如果一个一个手打太慢了,结果想到了Python,感觉学习Python用处还是非常多的。
1. Tesseract介绍及配置
文字识别是ORC的一部分内容,ORC的意思是光学字符识别,通俗讲就是文字识别。Tesseract是一个用于文字识别的工具,我们结合Python使用可以很快的实现文字识别。但是在此之前我们需要完成一个繁琐的工作。
(1)Tesseract的安装及配置
Tesseract的安装包可以从网址 https://digi.bib.uni-mannheim.de/tesseract/上下载(官网下载很慢)或者从胖哥文章最后提供的百度网盘链接下载也可以的。
安装过程就不多说了,windows安装很简单,一步一步执行就行。
注意事项:
1. 将安装目录配置到系统path变量当中,我们路径是C:\Program Files (x86)\Tesseract-OCR;
2. 设置TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata(根据自己的安装目录)
(2)如果需要中文语言包,需要把网盘里面的chi_sim.traineddata文件,放到如下目录
(3)测试是否安装成功:有如下信息代表安装成功
2. 编写文字识别的代码:
常见问题:
1.FileNotFoundError:[WinError 2]系统找不到指定文件。
解决办法:
打开文件pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径,再次使用就不会报这个错了。
tesseract_cmd = ‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe’
需要安装包和完整Python代码的朋友们,请关注如下微信公众号,回复”识别图片文字“,即可获取完整内容;
添加胖哥微信:zy10178083,回复”入群“,胖哥拉你进去python学习交流群,胖哥会不定期分享干货!
微信公众号:胖哥真不错。