zigzag 发表于 2024-6-29 00:23

古籍书,几百页,几百本,想变成电子版,图片变形严重,求离线处理图片ocr繁体软件

大概有230本古籍书,每本书有200页左右,想变成电子版,
目前拍照的图片变形严重,我已经打包成pdf了,都是黑白书籍,求离线处理图片ocr繁体工具。

手下有Adobe全家桶,acrobat 优化不尽如意,那扫描王太麻烦了,处理4000多页也是很困难的,

竖版书籍,从上到下,从右到左,很麻烦

xbang 发表于 2024-6-29 07:29

这整理,需要耐心。

liu00cheng 发表于 2024-6-29 08:05

ABBYY FineReader
支持多种文字
PDF离线OCR
竖排这个,没注意,自己尝试一下

https://www.aliyundrive.com/s/g6A1sgooUcn
https://www.aliyundrive.com/s/7ZmCEqWAtbz
自己手里的是12版本,上面是从网上找的15版本,仅参考

YUYELOVE 发表于 2024-6-29 08:41

只有一个思路:这个可能需要一点代码能力,个人使用过中文识别率比较高的库就是https://github.com/PaddlePaddle/PaddleOCR,也可以站内搜索一下有没有集成好的工具。

SU150228 发表于 2024-6-29 08:48

个人设想:代码调用天若竖排OCR进行批量处理

czz404 发表于 2024-6-29 09:49

竖排排版的繁体ocr一直是老大难问题,网上成熟的付费方案(比如合合等)处理的都不是很完美,更别提你说的离线、图片有变形且量大了

我直说了吧,目前没有实现的可能性

tanglc 发表于 2024-6-29 10:47

楼上说的不错,目前商业api对古籍识别就不是很好,更别说离线的,合合中文识别很不错,是第一梯队的但比较贵,百度api的ocr相比来不行,有道的综合性价比比较高

LightswornSnow 发表于 2024-6-29 11:35

古籍竖排甚至上下两三栏或者加图的不同版式,还常常大字加上小字双行,繁体有时异体、避讳缺笔,还提图片变形……真的是挑战。
很久没碰也只在小项目打杂过,就面对很小的工作量拿天若(当时还没有更好的工具,后来的没接着了解)一点点识别并又费不少功夫修正。
上次好像看到消息字节和北大合作的什么平台来着,刚刚查叫识典古籍,不知道有没有直接工具还是要找他们。阿里那边也搞过汉典重光,印象里是只有成果展示的。

雨过天青云破处 发表于 2024-6-29 22:14

这需要一个团队,好多大学、古籍整理部门就是做这个事的,需要消耗大量的人力、时间、金钱。好多东西不是简单地扫描整理出来,需要进行标点、校勘、释义、补残、辨伪、辑佚等工作,否则就算是整理出来,也是支离破碎,立作者原意甚远。

fzhhn 发表于 2024-6-30 02:13

我只知道umiocr可以识别繁体中文:
https://s21.ax1x.com/2024/06/30/pkcu8IJ.png
这是github链接:https://github.com/hiroi-sora/Umi-OCR
gitee国内镜像:https://gitee.com/mirrors/Umi-OCR
至于准确率怎么样我也不知道,我手头也没有古籍可以识别。
页: [1] 2
查看完整版本: 古籍书,几百页,几百本,想变成电子版,图片变形严重,求离线处理图片ocr繁体软件