【OCRmyPDF】扫描文档转换为可搜索文字版PDF

d8349565 · 发表于 2022-9-30 23:27

本帖最后由 d8349565 于 2022-10-1 00:11 编辑

【OCRmyPDF】在线转换可搜索文字PDF

“专业的IT人员不做繁琐的日常文件管理工作，专业的白领也负担不起软件定制与维护”
以上大概就是我开始自学Python编程的原因吧！

一、说明

OCRmyPDF是一个应用程序和库，它向PDF中的图像添加文本“层”，使扫描的PDF图像可搜索。它使用OCR来猜测图像中包含的文本。它是用Python编写的。OCRmyPDF支持允许自定义处理步骤的插件。

近期看到关于OCRmyPDF的推文，联想到自己手上扫描的协议、文件一大把，有时页码较多，查找关键内容很不便捷，于是下班时间折腾了两天，完成了Windows本地化安装测试（可批量、可选页、可输入图片等），文件处理后，相当于在PDF文件的每一页中添加了透明的文本层，内容检索非常效率。

在网页截图保存到PDF（特地选择清晰度较低文件），然后转换进行对比	转换后，可在文档内搜索文本内容，也能复制粘贴出来

为了发个帖子，在linux服务器中部署了程序，在以下网页供大家使用测试。

个人服务器部署测试

二、使用方式

20220930_231744 (1).gif

三、安装方式

# 服务器安装顺序
sudo apt-get -y remove ocrmypdf
sudo apt-get -y update
sudo apt-get -y install \
    ghostscript \
    icc-profiles-free \
    libxml2 \
    pngquant \
    python3-pip \
    tesseract-ocr \
    zlib1g
pip3 install ocrmypdf

# 简单的python代码，具体参数参考官方文档
import ocrmypdf

file = r'input.pdf'
output = r'output.pdf'
ocrmypdf.ocr(file,output ,lang=['chi_sim','eng'], deskew=True)

d8349565 · 发表于 2022-10-1 10:33

lsyh1688 发表于 2022-10-1 10:20
请教个人的win系统电脑如何实现呢？

我还没整理好如何具体流程，后续整好，测试没问题了再发

xaiwant · 发表于 2022-10-1 15:13

很期待，要是本地化的就完美了

wlq6030 · 发表于 2022-10-1 00:08

看着很高级的样子，小白有点搞不懂

雾都孤尔 · 发表于 2022-10-1 00:50

学习下，试试看搭建。感谢分享。

webyjh · 发表于 2022-10-1 01:06

不能提交文件啊

cszdz999 · 发表于 2022-10-1 04:50

可否打包成本地安装程序

tl;dr · 发表于 2022-10-1 06:47

提示: 作者被禁止或删除内容自动屏蔽

mashan2014 · 发表于 2022-10-1 07:15

那么少的代码。历害。

kooke2008 · 发表于 2022-10-1 07:34

挺实用的，在一些场合需要用得到。

稻海香 · 发表于 2022-10-1 09:21

感觉很好。后续还能再用吗？

andydqq2006 · 发表于 2022-10-1 09:44

扫描件能单独复制文字吗

帐号		自动登录	找回密码
密码			注册[Register]

[Python 原创] 【OCRmyPDF】扫描文档转换为可搜索文字版PDF