好友
阅读权限25
听众
最后登录1970-1-1
|
本帖最后由 hrh123 于 2023-9-13 20:50 编辑
2023/8/1更新
修复了带- 字符无法被正常读取的bug,并采用了更先进的打包方式
下载链接:
2023/7/31更新
- 改进了GUI样式以及控件位置
- 增加了导出表格至Word,Markdown,HTML选项
- 从输入路径变成更加可控的选择文件选项
- 改进打包方式,增加运行效率
- 增加了对epub,xbs,cbz等多种格式文档识别的支持
关于之前提过的内置OCR识别,不打算加了.如果直接调用云端的接口,那感觉对于这个小工具来讲,可控性不高,稳定性较差,版本更新会更频繁,于是写了个基于pytorch的本地OCR识别引擎,代码已经写好了,但是模型文件太大了,一起打包不现实,且需要较好的CPU和GPU配置支持运行,最后被迫把代码删掉,有需要识别图片还是自己用其他工具识别成文档再使用.
上个示意图:
这次下载链接就直接放了:
20230728更新
- 增加了导出Excel选项
- 增加了对pdf格式的支持
- 改善输出表格样式,方便复制后导出
- 重写了匹配规则,修复了一个潜在的匹配问题
示意图(只提供Windows版):
今日看到了悬赏贴
并作出了回复.
由于一开始回帖时夸下了海口,说甚至不用库,导致最后回复的程序demo比较劣质,效率比较低,还有bug(就是把特殊字符给替换成空格,但是面对缩写,如don't,就会变成don t,影响准确率).不过觉得这是个不错的东西,要是写出个来倒真挺实用,为了面对长文时的效率还有输出的美观,改了好久,最终得到了这个程序.
先上一张示意图:
历史版本:
down.txt
(39 Bytes, 下载次数: 16)
download.txt
(39 Bytes, 下载次数: 21)
|
免费评分
-
查看全部评分
本帖被以下淘专辑推荐:
- · 精品工具盒|主题: 2342, 订阅: 1050
- · 编程之美|主题: 143, 订阅: 13
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|