OCR与Tesseract介绍

Post author:xfxia
Post published:2023年5月13日
Post category:其他

1.OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别（Optical Character Recognition，OCR）。可以实现OCR 的底层库并不多，目前很多库都是使用共同的几个底层OCR 库，或者是在上面进行定制。
Tesseract 是一个OCR 库，目前由Google 赞助（Google 也是一家以OCR 和机器学习技术闻名于世的公司）。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。
除了极高的精确度，Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体（只要这些字体的风格保持不变就可以），也可以识别出任何Unicode 字符。

2. Tesseract的安装与使用

Tesseract的Windows安装包下载地址为： http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe ，下载后双击直接安装即可。安装完后，需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面，则表示Tesseract安装完成且添加到系统变量中。
在这里插入图片描述

可以看到识别的情况不如刚才规范字体的好，但是也能识别图片中的大部分字母。
最后是识别简体中文，需要事先安装简体中文语言包，下载地址为：https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata ,再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例：
在这里插入图片描述

可能会遇到的问题

错误信息的关键词是tesseract_prefix的环境变量设置。
解决办法：

找到testData所在的目录，默认情况下是在tesseract安装的目录，在环境变量中设置TESSDATA_PREFIX的环境变量为testdata所在的目录即可。重新运行命令即可正常使用。
需要Anaconda 文件目录下的site-packages下找到pytesseract.py文件，修改文件中tesseract_cmd的值，该值需要是tesseract.exe的绝对路径，参考如下:
tesseract_cmd = “C:/Program Files (x86)/Tesseract-OCR/tesseract.exe”

原文链接：https://blog.csdn.net/weixin_38346042/article/details/118462060

1.OCR与Tesseract介绍

2. Tesseract的安装与使用

你可能也喜欢