OCR(二) TesseractOCR 语言包训练

news/2024/12/24 9:11:12 标签: ocr, 机器学习, 深度学习

目录

1. 语言包简介

2. 环境部署

2.1 安装tessract

2.2 安装java JDK

2.3 下载jTessBoxEditor

3. 训练(LSTM模式-推荐)

3.1 示例

3.2 制作tiff图片

3.3 生成box文件

3.4 调整训练文件

3.5 生成 lstmf 文件

3.6 提取LSTM文件

3.7 创建txt文件

3.8 合并

3.9 验证

4. 训练(普通模式)

4.1 制作tiff图片

4.2  使用tesseract生成box文件

4.3 使用jTessBoxEditor调整.box训练文件

4.4 创建字体特征文件

4.5 生成.tr训练文件

4.6 生成字符子文件

4.7 生成数据字典

4.8 合并生成traineddata

4.9 验证语言包


1. 语言包简介

        在Google训练的官方文件中,traineddata文件集,存在于三个单独的仓库中,分别是

tessdata_fast、tessdata_best 和 tessdata。

  1. tessdata_fast:在速度和准确度之间取得最佳平衡,整数模型。
  2. tessdata_best:在 Google 的评估数据上取得最佳结果,速度较慢,浮点数 模型。这些是唯一可以作为微调训练基础的模型。
  3. tessdata:这些包含 2016 年的传统 tesseract 模型。LSTM 模型已使用 tessdata_best LSTM 模型的整数版本进行了更新。

训练模型

速度

准确度

支持传统

可重新训练

tessdata

传统+LSTM(整形tessdata-best)

比tessdata-best快

比tesseract-best略微不太准确

tessdata-best

仅限LSTN(基于langdata)

最慢

最准确

tessdata-fast

比tessdata-best网络更小的整形LSTM

最快

最不准确

        要注意的是,当使用来自 tessdata_best 和 tessdata_fast 仓库的 traineddata 文件时,仅支持新的基于 LSTM 的 OCR 引擎 (–oem 1)。传统 tesseract 引擎 (–oem 0) 不支持这些文件,因此 Tesseract 的 oem 模式 '0' 和 '2' 无法使用它们。

作为中文我们一般需要关注这几个:

chi_sim.traineddata 中文简体

chi_tra.traineddata 中文繁体

osd.traineddata 方向和脚本检测

equ.traineddata 数学方程式检测

2. 环境部署

2.1 安装tessract

注意:安装过程中需要下载中文包(如图)

安装完成后,系统环境变量:

a. Path  添加 :C:\Program Files\Tesseract-OCR

b. 新建:TESSDATA_PREFIX   C:\Program Files\Tesseract-OCR

    


http://www.niftyadmin.cn/n/5797611.html

相关文章

Spring Boot 整合 RabbitMQ:手动 ACK 与 QoS 配置详解

在分布式系统中,消息队列(Message Queue)是实现异步通信的重要组件。RabbitMQ 作为一个功能强大的消息代理,提供了多种消息传递模式和丰富的配置选项。在生产环境中,为了确保消息的可靠传递,我们通常需要配…

【工作流】工作顺序

背景 当时的情况是:没有产品经理,后端直接和需求方对接;前端只能短时间投入大部分时间要忙别的;只有3个角色:需求方,后端,前端; 当时直接执行的 直接使用会议了解需求&#xff0c…

Go C编程 第6课 无人机 --- 计算旋转角

旋转的秘密---认识角度 rt、lt命令学习 goc电子课程 一、编程步骤 第一步 第二步 第三步 第四步 二、画“四轴无人机” (一)、画第一根机轴 (二)、画第二根机轴 (三)、画完整的无人机 三、画“多轴无人…

单片机上电后程序不运行怎么排查问题?

1.电源检查。使用电压表测量单片机的电源电压是否正常,确保电压在规定的范围内,如常见的5V。 2.复位检查。检查复位引脚的电压是否正常,在单片机接通电源时,复位引脚通常会有一个高电平,按下复位按钮时,复位…

当代体育科技杂志当代体育科技杂志社当代体育科技编辑部2024年第33期目录

运动人体科学 运动调控代谢综合征的机制研究 张征光;葛贝贝;陈英豪; 1-4 肥胖初中男生体力活动与静息能耗的计量关系 张卫东;乔云峰; 5-9 青少年乒乓球运动中肩部损伤的预防策略 张悦;王英建;黄春艳; 10-1293 运动训练学 青少年啦啦操专项体能训练策略研究 张爱…

解决 Kubernetes 集群中 Calico 网络插件报错问题

文章目录 解决 Kubernetes 集群中 Calico 网络插件报错问题问题分析pod状态报错解读可能原因 解决方案重启 Calico 相关组件验证问题是否解决 进一步检查和优化检查 Calico 配置验证 RBAC 权限监控 Calico 状态定期更新和维护 总结 解决 Kubernetes 集群中 Calico 网络插件报错…

ARM异常处理 M33

1. ARMv8-M异常类型及其详细解释 ARMv8-M Exception分为两类:预定义系统异常(015)和外部中断(1616N)。 各种异常的状态可以通过Status bit查看,获取更信息的异常原因: CFSR是由UFSR、BFSR和MMFSR组成: 下面列举HFSR、MMFSR、…

分布式 IO 模块:赋能造纸业,革新高速纸机主传动

背景介绍 在当今高速发展的造纸行业,每一个生产环节的高效与精准都关乎着企业的竞争力与未来。而高速纸机主传动系统,作为造纸生产线的 “心脏”,其性能的优劣更是重中之重。 痛点分析 高速纸机在运行过程中,主传动需要面对诸多…