第86期 软件推荐 一个开源超好用的OCR软件

在日常的工作中经常会遇到电子书或文档是图片扫描出的无法选中,或选中文字为乱码的情况。这种情况下就需要OCR软件进行再识别生成双层PDF

常用的文字识别软件为 ABBYY FineReader以及WPS。但均存在软件较大,识别慢,收费的问题

本期介绍一个github 20k stars的明星开源项目(Umi-OCR).

真好

软件介绍

免费,开源,可批量的离线OCR软件

  • 免费:项目所有代码开源,完全免费。
  • 方便:解压即用,离线运行,无需网络。
  • 高效:自带高效率的离线OCR引擎,内置多种语言识别库。
  • 灵活:支持命令行、HTTP接口等外部调用方式。
  • 功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别
    dfa27259dabc196f023cb45266f7e981_MD5

dc534478ff7d38d284afb9209001b6be_MD5

软件安装

注意事项

软件分为两个版:Paddle版和Rapid版。能用paddle就用paddle版吧

  • Paddle 引擎插件版
    • (性能好,速度快,占用率高,适合高配机器。不兼容奔腾、赛扬、凌动CPU
  • Rapid 引擎插件版
    • 速度稍慢,内存占用低,适合低配机器,兼容性好
  • 个人使用
    • 差距还是挺大的,同运行条件下,我的paddle版会比rapid版的速度快一倍。
    • 大约2-3秒一面PDF(Paddle版,文字内容极多的蓝色生死恋
      不同版本仅OCR引擎插件不同,其它功能完全一致。

目前只有windows版本,其它端在开发中

Github安装

1ecf618fa9074b8b5385a0022f8a8281_MD5

其它安装

公众号后台回复 “240410” 获取安装包

使用教程

软件使用简单,功能清楚,直接用没有任何问题

更多教程中文文档可见源网址:hiroi-sora/Umi-OCR: OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。 (github.com)