古籍书,几百页,几百本,想变成电子版,图片变形严重,求离线处理图片ocr繁体软件
大概有230本古籍书,每本书有200页左右,想变成电子版,目前拍照的图片变形严重,我已经打包成pdf了,都是黑白书籍,求离线处理图片ocr繁体工具。
手下有Adobe全家桶,acrobat 优化不尽如意,那扫描王太麻烦了,处理4000多页也是很困难的,
竖版书籍,从上到下,从右到左,很麻烦 这整理,需要耐心。 ABBYY FineReader
支持多种文字
PDF离线OCR
竖排这个,没注意,自己尝试一下
https://www.aliyundrive.com/s/g6A1sgooUcn
https://www.aliyundrive.com/s/7ZmCEqWAtbz
自己手里的是12版本,上面是从网上找的15版本,仅参考 只有一个思路:这个可能需要一点代码能力,个人使用过中文识别率比较高的库就是https://github.com/PaddlePaddle/PaddleOCR,也可以站内搜索一下有没有集成好的工具。 个人设想:代码调用天若竖排OCR进行批量处理 竖排排版的繁体ocr一直是老大难问题,网上成熟的付费方案(比如合合等)处理的都不是很完美,更别提你说的离线、图片有变形且量大了
我直说了吧,目前没有实现的可能性 楼上说的不错,目前商业api对古籍识别就不是很好,更别说离线的,合合中文识别很不错,是第一梯队的但比较贵,百度api的ocr相比来不行,有道的综合性价比比较高 古籍竖排甚至上下两三栏或者加图的不同版式,还常常大字加上小字双行,繁体有时异体、避讳缺笔,还提图片变形……真的是挑战。
很久没碰也只在小项目打杂过,就面对很小的工作量拿天若(当时还没有更好的工具,后来的没接着了解)一点点识别并又费不少功夫修正。
上次好像看到消息字节和北大合作的什么平台来着,刚刚查叫识典古籍,不知道有没有直接工具还是要找他们。阿里那边也搞过汉典重光,印象里是只有成果展示的。 这需要一个团队,好多大学、古籍整理部门就是做这个事的,需要消耗大量的人力、时间、金钱。好多东西不是简单地扫描整理出来,需要进行标点、校勘、释义、补残、辨伪、辑佚等工作,否则就算是整理出来,也是支离破碎,立作者原意甚远。 我只知道umiocr可以识别繁体中文:
https://s21.ax1x.com/2024/06/30/pkcu8IJ.png
这是github链接:https://github.com/hiroi-sora/Umi-OCR
gitee国内镜像:https://gitee.com/mirrors/Umi-OCR
至于准确率怎么样我也不知道,我手头也没有古籍可以识别。
页:
[1]
2