C:\Users\gyarmy\AppData\Local\Tesseract-OCR
# 命令如下
tesseract test.jpg result
cat result.txt
from PIL import Image
import pytesseract
# windows的路径配置
pytesseract.pytesseract.tesseract_cmd = 'C:\\Users\\gyarmy\\AppData\\Local\\Tesseract-OCR\\tesseract.exe'
im = Image.open('test01.png')
result = pytesseract.image_to_string(im)
print(result)
# 1 下载语言包
# 下载地址
https://github.com/tesseract-ocr/tessdata
# 2 使用
使用命令检查
tesseract --list-langs
把语言包放置到指定目录下
C:\Users\gyarmy\AppData\Local\Tesseract-OCR\tessdata
# 3 开始验证
tesseract.exe test.png stdout -l chi_sim
小结:注意tesseract的安装包含2个部分,一个是软件本身的安装,安装完成后需要配置PATH系统变量,一个是语言包的安装,语言包拷贝完成后需要配置TESSDATA_PREFIX系统变量。
notes:
1.安装软件后如果没有配置PATH路径会提示:’tesseract’ 不是内部或外部命令,也不是可运行的程序或批处理文件。
2.如果语言包没有安装,或者没有正确设置TESSDATA_PREFIX,将会提示Failed loading language错误:
Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory.
Failed loading language ‘eng’
Tesseract couldn’t load any languages!