tesseract的安装和使用

0x01 下载安装tesseract

  • python安装 pytesseract
    • pip install pytesseract
    • pip install pillow

0x02 配置环境变量

  • 将Tesseract-OCR 加入到路径中

    C:\Users\gyarmy\AppData\Local\Tesseract-OCR

0x03 验证安装

# 命令如下
tesseract test.jpg result
cat result.txt

0x04 python 代码测试

from PIL import Image
import pytesseract

# windows的路径配置
pytesseract.pytesseract.tesseract_cmd = 'C:\\Users\\gyarmy\\AppData\\Local\\Tesseract-OCR\\tesseract.exe'

im = Image.open('test01.png')
result = pytesseract.image_to_string(im)
print(result)

0x05 中文的识别

# 1 下载语言包
# 下载地址
https://github.com/tesseract-ocr/tessdata

# 2 使用
使用命令检查
tesseract --list-langs

把语言包放置到指定目录下
C:\Users\gyarmy\AppData\Local\Tesseract-OCR\tessdata

# 3 开始验证
tesseract.exe test.png  stdout  -l chi_sim

0x06报错提示

小结:注意tesseract的安装包含2个部分,一个是软件本身的安装,安装完成后需要配置PATH系统变量,一个是语言包的安装,语言包拷贝完成后需要配置TESSDATA_PREFIX系统变量。

notes:

1.安装软件后如果没有配置PATH路径会提示:’tesseract’ 不是内部或外部命令,也不是可运行的程序或批处理文件。

2.如果语言包没有安装,或者没有正确设置TESSDATA_PREFIX,将会提示Failed loading language错误:

Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory.
Failed loading language ‘eng’
Tesseract couldn’t load any languages!

原文链接: tesseract的安装和使用 版权所有,转载时请注明出处,违者必究。
注明出处格式:流沙团 ( https://gyarmy.com/post-804.html )

发表评论

0则评论给“tesseract的安装和使用”