【2024-03-25更新】批量转双层PDF v2.4
本帖最后由 yang4384 于 2024-4-1 11:40 编辑软件功能:可以批量将文件夹内的PDF文件OCR成双层PDF文档,方便检索复制。
识别引擎用的是PP飞桨,这个好像是百度的东西,对中文的识别率感觉比其它的引擎好
我用的是打包好的组件,作者跟Umi-OCR 批量图片转文字工具是同一个人~,可以离线使用
一些老旧的CPU和32位系统可能无法使用
识别效果:因为字体大小的问题,框选的位置可能会跟实际有点误差,像下面的图片,没框到那行的全部,但实际已经识别完了,粘贴出来的是整行文本
由于文件比较大,连带识别引擎和模型压缩后还有一百多M,所以传百度云了。
有人说不能识别英文,我测试了一下没啥问题
2023-07-01更新
1.加了一个页的进度条 方便看进度
2.加了空白页的异常处理(有些人说点了没反应可能是因为这个)
2023-08-09
1.修复OCR组件在软件退出后还保留后台的问题
2023-11-07更新
本次2.1版本的主要更新内容如下:
1、换了个新界面
2、支持覆盖原文件、搜索子文件夹
3、可以排除掉上次OCR的文件
4、优化了文字的位置、应该不会再出现超出文档范围的文本了
5、支持保存到指定文件夹
6、OCR组件更新,作者说支持win7 64 需要vc运行库
如果复制文本时出现大量空格,建议换个软件打开(我的电脑就出现过2345看图王复制有空格,Microsoft Edge浏览器复制没空格)
2024-03-25 52专版直接更新到2.4啦 以下是更新日志
#2.2 2023-12-04
#打包上自定义字体
#优化异常捕获的处理
#选择指定路径时,输出的文件保持原目录结构
#增加引擎报错
#修复覆盖文件时错误的问题
#2.2.1 2023-12-07
#修复一个添加页面错误的bug
#修复页面旋转导致的错误
#2.2.1 2024-02-28
#GUI调整 优化进度细节
#修复特殊文件名的问题
#2.4 2024-03-25
#增加语言选项,还有一个高精度模型(这个模型比较大,识别起来速度慢很多)
#优化页面解析
#增加混合模式
2.4版本借鉴了hiroi-sora大佬的 【间隙·树·排序算法】,对OCR结果或PDF提取的文本进行版面分析,按人类阅读顺序进行排序。
现在能够获得的更好的复制效果。
52专版打包了高精度模型,所以体积大很多。如果不需要这个模型,可以下载两百多兆的版本。
lsj7890 发表于 2023-6-26 23:39
开始OCR后没反应
点开始后,会加载引擎,大概一两秒,有的电脑可能慢一点。进度条变空说明开始了,完成时间取决于pdf数量和大小,可以先找一页测试一下。我自己测试没问题 hihand2000 发表于 2023-7-5 10:35
新版是否已更新?
更新了,在原来的链接里。 双层pdf指的就是文件上层是原来的图像,下层是识别出来的结果,双层pdf是将文件通过ocr识别、纠偏、去污来完成的。这样可以支持复制、选择、检索等等其他功能,还可以100%的保留原始的版面效果。 pplseru 发表于 2024-3-1 21:48
识别率怎么样,飞将的引擎是要购买的吗
飞桨识别率还是不错的免费 greataolu 发表于 2023-12-8 08:13
请问两个引擎的区别是什么?
电脑配置高的选默认引擎,第二个对低配置机器比较友好 感谢分享,下载收藏 感谢分享 开始OCR后没反应 网盘提取码错误 支持下。 大佬,双层PDF跟PDF有啥不一样吗? wj1314520 发表于 2023-6-26 22:00
大佬,双层PDF跟PDF有啥不一样吗?
对于图片类型的PDF文档,比如扫描件制作双层后方便检索复制 wj1314520 发表于 2023-6-26 22:00
大佬,双层PDF跟PDF有啥不一样吗?
对于图片类型的PDF文档,比如扫描件制作双层后方便检索复制 不知道识别率怎么样 谢谢分享!