0x01 下载安装tesseract
- 下载地址 : download
- python安装 pytesseract
- pip install pytesseract
- pip install pillow
0x02 配置环境变量
- 将Tesseract-OCR 加入到路径中
C:\Users\gyarmy\AppData\Local\Tesseract-OCR
0x03 验证安装
# 命令如下
tesseract test.jpg result
cat result.txt
0x04 python 代码测试
from PIL import Image
import pytesseract
# windows的路径配置
pytesseract.pytesseract.tesseract_cmd = 'C:\\Users\\gyarmy\\AppData\\Local\\Tesseract-OCR\\tesseract.exe'
im = Image.open('test01.png')
result = pytesseract.image_to_string(im)
print(result)
0x05 中文的识别
# 1 下载语言包
# 下载地址
https://github.com/tesseract-ocr/tessdata
# 2 使用
使用命令检查
tesseract --list-langs
把语言包放置到指定目录下
C:\Users\gyarmy\AppData\Local\Tesseract-OCR\tessdata
# 3 开始验证
tesseract.exe test.png stdout -l chi_sim
0x06报错提示
小结:注意tesseract的安装包含2个部分,一个是软件本身的安装,安装完成后需要配置PATH系统变量,一个是语言包的安装,语言包拷贝完成后需要配置TESSDATA_PREFIX系统变量。
notes:
1.安装软件后如果没有配置PATH路径会提示:’tesseract’ 不是内部或外部命令,也不是可运行的程序或批处理文件。
2.如果语言包没有安装,或者没有正确设置TESSDATA_PREFIX,将会提示Failed loading language错误:
Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory.
Failed loading language ‘eng’
Tesseract couldn’t load any languages!
0则评论给“tesseract的安装和使用”