【2024-03-25更新】批量转双层PDF v2.4

yang4384 发表于 2023-6-26 21:56

本帖最后由 yang4384 于 2024-4-1 11:40 编辑

软件功能：可以批量将文件夹内的PDF文件OCR成双层PDF文档，方便检索复制。

识别引擎用的是PP飞桨，这个好像是百度的东西，对中文的识别率感觉比其它的引擎好

我用的是打包好的组件，作者跟Umi-OCR 批量图片转文字工具是同一个人~，可以离线使用

一些老旧的CPU和32位系统可能无法使用
识别效果：因为字体大小的问题，框选的位置可能会跟实际有点误差，像下面的图片，没框到那行的全部，但实际已经识别完了，粘贴出来的是整行文本

由于文件比较大，连带识别引擎和模型压缩后还有一百多M，所以传百度云了。

有人说不能识别英文，我测试了一下没啥问题

2023-07-01更新
1.加了一个页的进度条方便看进度
2.加了空白页的异常处理（有些人说点了没反应可能是因为这个）
2023-08-09
1.修复OCR组件在软件退出后还保留后台的问题
2023-11-07更新

本次2.1版本的主要更新内容如下：
1、换了个新界面
2、支持覆盖原文件、搜索子文件夹
3、可以排除掉上次OCR的文件
4、优化了文字的位置、应该不会再出现超出文档范围的文本了
5、支持保存到指定文件夹
6、OCR组件更新，作者说支持win7 64 需要vc运行库
如果复制文本时出现大量空格，建议换个软件打开（我的电脑就出现过2345看图王复制有空格，Microsoft Edge浏览器复制没空格）

2024-03-25 52专版直接更新到2.4啦以下是更新日志

#2.2 2023-12-04
#打包上自定义字体
#优化异常捕获的处理
#选择指定路径时，输出的文件保持原目录结构
#增加引擎报错
#修复覆盖文件时错误的问题
#2.2.1 2023-12-07
#修复一个添加页面错误的bug
#修复页面旋转导致的错误
#2.2.1 2024-02-28
#GUI调整优化进度细节
#修复特殊文件名的问题
#2.4 2024-03-25
#增加语言选项，还有一个高精度模型（这个模型比较大，识别起来速度慢很多）
#优化页面解析
#增加混合模式
2.4版本借鉴了hiroi-sora大佬的【间隙·树·排序算法】，对OCR结果或PDF提取的文本进行版面分析，按人类阅读顺序进行排序。
现在能够获得的更好的复制效果。
52专版打包了高精度模型，所以体积大很多。如果不需要这个模型，可以下载两百多兆的版本。

yang4384 发表于 2023-6-27 07:38

lsj7890 发表于 2023-6-26 23:39
开始OCR后没反应

点开始后，会加载引擎，大概一两秒，有的电脑可能慢一点。进度条变空说明开始了，完成时间取决于pdf数量和大小，可以先找一页测试一下。我自己测试没问题

yang4384 发表于 2023-7-5 12:53

hihand2000 发表于 2023-7-5 10:35
新版是否已更新？

更新了，在原来的链接里。

mapshadow 发表于 2023-6-26 22:08

双层pdf指的就是文件上层是原来的图像，下层是识别出来的结果，双层pdf是将文件通过ocr识别、纠偏、去污来完成的。这样可以支持复制、选择、检索等等其他功能，还可以100%的保留原始的版面效果。

yang4384 发表于 2024-3-6 20:02

pplseru 发表于 2024-3-1 21:48
识别率怎么样，飞将的引擎是要购买的吗

飞桨识别率还是不错的免费

yang4384 发表于 2023-12-8 18:54

greataolu 发表于 2023-12-8 08:13
请问两个引擎的区别是什么？

电脑配置高的选默认引擎，第二个对低配置机器比较友好

xiangdong 发表于 2023-6-27 00:57

感谢分享，下载收藏

xiaowei0249 发表于 2023-6-26 22:21

感谢分享

lsj7890 发表于 2023-6-26 23:39

开始OCR后没反应

esclong 发表于 2024-6-25 15:40

网盘提取码错误

adamfh 发表于 2023-6-26 22:00

支持下。

wj1314520 发表于 2023-6-26 22:00

大佬，双层PDF跟PDF有啥不一样吗？

moruye 发表于 2023-6-26 22:03

yang4384 发表于 2023-6-26 22:07

wj1314520 发表于 2023-6-26 22:00
大佬，双层PDF跟PDF有啥不一样吗？

对于图片类型的PDF文档，比如扫描件制作双层后方便检索复制

yang4384 发表于 2023-6-26 22:07

wj1314520 发表于 2023-6-26 22:00
大佬，双层PDF跟PDF有啥不一样吗？

对于图片类型的PDF文档，比如扫描件制作双层后方便检索复制

intlhz 发表于 2023-6-26 22:16

不知道识别率怎么样

seawaycao 发表于 2023-6-26 22:21

谢谢分享！

页: [1] 2 3 4 5 6 7 8 9 10

吾爱破解 - 52pojie.cn's Archiver

【2024-03-25更新】批量转双层PDF v2.4