【案例分享】利用Python识别图片中的文字

  • Post author:
  • Post category:python

前言:现在网络上有很多文章,安装包、代码都不全,胖哥对此重新梳理后,把用到的数据和代码全部奉上,如果想直接要数据和代码,请查看文章最后!!!

 说明:最近由于个人的需求,需要从一些图片上,把文字弄出来;如果一个一个手打太慢了,结果想到了Python,感觉学习Python用处还是非常多的。

1. Tesseract介绍及配置

文字识别是ORC的一部分内容,ORC的意思是光学字符识别,通俗讲就是文字识别。Tesseract是一个用于文字识别的工具,我们结合Python使用可以很快的实现文字识别。但是在此之前我们需要完成一个繁琐的工作。

(1)Tesseract的安装及配置

Tesseract的安装包可以从网址 https://digi.bib.uni-mannheim.de/tesseract/上下载(官网下载很慢)或者从胖哥文章最后提供的百度网盘链接下载也可以的。

安装过程就不多说了,windows安装很简单,一步一步执行就行。

注意事项:

1. 将安装目录配置到系统path变量当中,我们路径是C:\Program Files (x86)\Tesseract-OCR;

2. 设置TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata(根据自己的安装目录)

(2)如果需要中文语言包,需要把网盘里面的chi_sim.traineddata文件,放到如下目录

(3)测试是否安装成功:有如下信息代表安装成功

 

 2. 编写文字识别的代码:

常见问题:

1.FileNotFoundError:[WinError 2]系统找不到指定文件。

解决办法:

打开文件pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径,再次使用就不会报这个错了。

tesseract_cmd = ‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe’

需要安装包和完整Python代码的朋友们,请关注如下微信公众号,回复”识别图片文字“,即可获取完整内容;

添加胖哥微信:zy10178083,回复”入群“,胖哥拉你进去python学习交流群,胖哥会不定期分享干货!

微信公众号:胖哥真不错。

 


版权声明:本文为weixin_42163563原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。