【案例分享】利用Python识别图片中的文字

Post author:xfxia
Post published:2023年5月13日
Post category:python

前言：现在网络上有很多文章，安装包、代码都不全，胖哥对此重新梳理后，把用到的数据和代码全部奉上，如果想直接要数据和代码，请查看文章最后！！！

说明：最近由于个人的需求，需要从一些图片上，把文字弄出来；如果一个一个手打太慢了，结果想到了Python，感觉学习Python用处还是非常多的。

1. Tesseract介绍及配置

文字识别是ORC的一部分内容，ORC的意思是光学字符识别，通俗讲就是文字识别。Tesseract是一个用于文字识别的工具，我们结合Python使用可以很快的实现文字识别。但是在此之前我们需要完成一个繁琐的工作。

（1）Tesseract的安装及配置

Tesseract的安装包可以从网址 https://digi.bib.uni-mannheim.de/tesseract/上下载（官网下载很慢）或者从胖哥文章最后提供的百度网盘链接下载也可以的。

安装过程就不多说了，windows安装很简单，一步一步执行就行。

注意事项：

1. 将安装目录配置到系统path变量当中，我们路径是C:\Program Files (x86)\Tesseract-OCR；

2. 设置TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata(根据自己的安装目录)

（2）如果需要中文语言包，需要把网盘里面的chi_sim.traineddata文件，放到如下目录

（3）测试是否安装成功:有如下信息代表安装成功

2. 编写文字识别的代码：

常见问题：

1.FileNotFoundError:[WinError 2]系统找不到指定文件。

解决办法：

打开文件pytesseract.py，找到如下代码，将tesseract_cmd的值修改为全路径，再次使用就不会报这个错了。

tesseract_cmd = ‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe’

需要安装包和完整Python代码的朋友们，请关注如下微信公众号，回复”识别图片文字“，即可获取完整内容；

添加胖哥微信：zy10178083，回复”入群“，胖哥拉你进去python学习交流群，胖哥会不定期分享干货！

微信公众号：胖哥真不错。

原文链接：https://blog.csdn.net/weixin_42163563/article/details/113767107

你可能也喜欢