古籍书，几百页，几百本，想变成电子版，图片变形严重，求离线处理图片ocr繁体软件

zigzag 发表于 2024-6-29 00:23

大概有230本古籍书，每本书有200页左右，想变成电子版，
目前拍照的图片变形严重，我已经打包成pdf了，都是黑白书籍，求离线处理图片ocr繁体工具。

手下有Adobe全家桶，acrobat 优化不尽如意，那扫描王太麻烦了，处理4000多页也是很困难的，

竖版书籍，从上到下，从右到左，很麻烦

xbang 发表于 2024-6-29 07:29

这整理，需要耐心。

liu00cheng 发表于 2024-6-29 08:05

ABBYY FineReader
支持多种文字
PDF离线OCR
竖排这个，没注意，自己尝试一下

https://www.aliyundrive.com/s/g6A1sgooUcn
https://www.aliyundrive.com/s/7ZmCEqWAtbz
自己手里的是12版本，上面是从网上找的15版本，仅参考

YUYELOVE 发表于 2024-6-29 08:41

只有一个思路：这个可能需要一点代码能力，个人使用过中文识别率比较高的库就是https://github.com/PaddlePaddle/PaddleOCR，也可以站内搜索一下有没有集成好的工具。

SU150228 发表于 2024-6-29 08:48

个人设想：代码调用天若竖排OCR进行批量处理

czz404 发表于 2024-6-29 09:49

竖排排版的繁体ocr一直是老大难问题，网上成熟的付费方案（比如合合等）处理的都不是很完美，更别提你说的离线、图片有变形且量大了

我直说了吧，目前没有实现的可能性

tanglc 发表于 2024-6-29 10:47

楼上说的不错，目前商业api对古籍识别就不是很好，更别说离线的，合合中文识别很不错，是第一梯队的但比较贵，百度api的ocr相比来不行，有道的综合性价比比较高

LightswornSnow 发表于 2024-6-29 11:35

古籍竖排甚至上下两三栏或者加图的不同版式，还常常大字加上小字双行，繁体有时异体、避讳缺笔，还提图片变形……真的是挑战。
很久没碰也只在小项目打杂过，就面对很小的工作量拿天若（当时还没有更好的工具，后来的没接着了解）一点点识别并又费不少功夫修正。
上次好像看到消息字节和北大合作的什么平台来着，刚刚查叫识典古籍，不知道有没有直接工具还是要找他们。阿里那边也搞过汉典重光，印象里是只有成果展示的。

雨过天青云破处 发表于 2024-6-29 22:14

这需要一个团队，好多大学、古籍整理部门就是做这个事的，需要消耗大量的人力、时间、金钱。好多东西不是简单地扫描整理出来，需要进行标点、校勘、释义、补残、辨伪、辑佚等工作，否则就算是整理出来，也是支离破碎，立作者原意甚远。

fzhhn 发表于 2024-6-30 02:13

我只知道umiocr可以识别繁体中文：
https://s21.ax1x.com/2024/06/30/pkcu8IJ.png
这是github链接：https://github.com/hiroi-sora/Umi-OCR
gitee国内镜像：https://gitee.com/mirrors/Umi-OCR
至于准确率怎么样我也不知道，我手头也没有古籍可以识别。

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

古籍书，几百页，几百本，想变成电子版，图片变形严重，求离线处理图片ocr繁体软件