吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1204|回复: 15
收起左侧

[资源求助] 古籍书,几百页,几百本,想变成电子版,图片变形严重,求离线处理图片ocr繁体软件

[复制链接]
zigzag 发表于 2024-6-29 00:23
50吾爱币
大概有230本古籍书,每本书有200页左右,想变成电子版,
目前拍照的图片变形严重,我已经打包成pdf了,都是黑白书籍,求离线处理图片ocr繁体工具。

手下有Adobe全家桶,acrobat 优化不尽如意,那扫描王太麻烦了,处理4000多页也是很困难的,

竖版书籍,从上到下,从右到左,很麻烦

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

xbang 发表于 2024-6-29 07:29
这整理,需要耐心。
liu00cheng 发表于 2024-6-29 08:05
ABBYY FineReader
支持多种文字
PDF离线OCR
竖排这个,没注意,自己尝试一下

https://www.aliyundrive.com/s/g6A1sgooUcn
https://www.aliyundrive.com/s/7ZmCEqWAtbz
自己手里的是12版本,上面是从网上找的15版本,仅参考
YUYELOVE 发表于 2024-6-29 08:41
只有一个思路:这个可能需要一点代码能力,个人使用过中文识别率比较高的库就是https://github.com/PaddlePaddle/PaddleOCR,也可以站内搜索一下有没有集成好的工具。
SU150228 发表于 2024-6-29 08:48
个人设想:代码调用天若竖排OCR进行批量处理
czz404 发表于 2024-6-29 09:49
竖排排版的繁体ocr一直是老大难问题,网上成熟的付费方案(比如合合等)处理的都不是很完美,更别提你说的离线、图片有变形且量大了

我直说了吧,目前没有实现的可能性
tanglc 发表于 2024-6-29 10:47
楼上说的不错,目前商业api对古籍识别就不是很好,更别说离线的,合合中文识别很不错,是第一梯队的但比较贵,百度api的ocr相比来不行,有道的综合性价比比较高
LightswornSnow 发表于 2024-6-29 11:35
古籍竖排甚至上下两三栏或者加图的不同版式,还常常大字加上小字双行,繁体有时异体、避讳缺笔,还提图片变形……真的是挑战。
很久没碰也只在小项目打杂过,就面对很小的工作量拿天若(当时还没有更好的工具,后来的没接着了解)一点点识别并又费不少功夫修正。
上次好像看到消息字节和北大合作的什么平台来着,刚刚查叫识典古籍,不知道有没有直接工具还是要找他们。阿里那边也搞过汉典重光,印象里是只有成果展示的。
雨过天青云破处 发表于 2024-6-29 22:14
这需要一个团队,好多大学、古籍整理部门就是做这个事的,需要消耗大量的人力、时间、金钱。好多东西不是简单地扫描整理出来,需要进行标点、校勘、释义、补残、辨伪、辑佚等工作,否则就算是整理出来,也是支离破碎,立作者原意甚远。
fzhhn 发表于 2024-6-30 02:13
我只知道umiocr可以识别繁体中文:

这是github链接:https://github.com/hiroi-sora/Umi-OCR
gitee国内镜像:https://gitee.com/mirrors/Umi-OCR
至于准确率怎么样我也不知道,我手头也没有古籍可以识别。

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
YZTX + 1 + 1 我很赞同!

查看全部评分

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 04:04

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表