Tesseract-OCR4.0识别中文与训练字库实例-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Tesseract-OCR4.0识别中文与训练字库实例

阅读量：5090 次

发布时间：2019-06-13

本文共 1148 字，大约阅读时间需要 3 分钟。

关于中文的识别，效果比较好而且开源的应该就是Tesseract-OCR了，所以自己亲身试用一下，分享到博客让有同样兴趣的人少走弯路。

文中所用到的身份证图片资源是百度找的，如有侵权可联系我删除。

一、准备工作

1、下载Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安装就行。

最后下载4.0版本

2、下载chi_sim.traindata字库。要有这个才能识别中文。下好后，放到Tesseract-OCR项目的tessdata文件夹里面。

3、下载jTessBoxEditor，这个是用来训练字库的。

为了识别方便建议放到环境变量中.

二、识别

1、进入cmd，进入到要识别的图片的路径下。

-解决bug

出现了这个错误. 下面的意思就是说不能加载’eng’语言包。请将tessdata的父文件夹路径设置为TESSDATA_PREFIX环境变量值，这个就是说在环境变量中新建一个系统变量，变量名称为TESSDATA_PREFIX，tessdata是放置语言包的文件夹，一般在你安装tesseract的目录下，即tesseract的安装目录就是tessdata的父目录，把TESSDATA_PREFIX的值设置为它就行了

2、输入命令

tesseract 图片名称生成的结果文件的名称字库
例如我的图片识别就是：
tesseract test.jpg result -l chi_sim

识别完后会生成result.txt文件

三、训练

1、将图片转换成tif格式，用于后面生成box文件。可以通过画图，然后另存为tif即可。

更改图片名字，这个是有要求的=。=

tif文面命名格式[lang].[fontname].exp[num].tif

lang是语言 fontname是字体

比如我们要训练自定义字库 mjorcen字体名normal

那么我们把图片文件重命名 mjorcen.normal.exp0.jpg在转tif。

2、生成box文件。

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox

box文件和对应的tif一定要在相同的目录下，不然后面打不开。

3、打开jTessBoxEditor矫正错误并训练

打开train.bat

找到tif图，打开，并校正。切换到图片所指的路径

出现乱码这是因为你软件设置字体的问题

在setting>font 设置中文字体

进行矫正主要就是坐标位置的调整,注意添加需要选择上一个文字才能分离

转载于:https://www.cnblogs.com/dgwblog/p/8728474.html

你可能感兴趣的文章

jQuery.form.js使用

（转）linux sort,uniq,cut,wc命令详解

关于ExecuteNonQuery执行的返回值(SQL语句、存储过程)

UVa540 Team Queue（队列queue）

mysql数据增删改查

akka之种子节点

不知道做什么时

matlab 给某一列乘上一个系数

密码学笔记——培根密码

Screening technology proved cost effective deal

MAC 上升级python为最新版本

创业老板不能犯的十种错误

Animations介绍及实例

判断请求是否为ajax请求

【POJ2699】The Maximum Number of Strong Kings(网络流)

spring boot配置跨域

BZOJ 1996 合唱队(DP)

进击吧！阶乘——大数乘法

安卓学习资料推荐-25

Mysql数据库备份和还原常用的命令

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-11-16 20:58:07 当前IP: 18.218.75.222 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我