【OCRmyPDF】扫描文档转换为可搜索文字版PDF
本帖最后由 d8349565 于 2022-10-1 00:11 编辑# 【OCRmyPDF】在线转换可搜索文字PDF
> “专业的IT人员不做繁琐的日常文件管理工作,专业的白领也负担不起软件定制与维护”
> 以上大概就是我开始自学Python编程的原因吧!
## 一、说明
------
> OCRmyPDF是一个应用程序和库,它向PDF中的图像添加文本“层”,使扫描的PDF图像可搜索。它使用OCR来猜测图像中包含的文本。它是用Python编写的。OCRmyPDF支持允许自定义处理步骤的插件。
[官方文档]: https://ocrmypdf.readthedocs.io/en/latest/index.html
: https://github.com/ocrmypdf/OCRmyPDF
#### 近期看到关于OCRmyPDF的推文,联想到自己手上扫描的协议、文件一大把,有时页码较多,查找关键内容很不便捷,于是下班时间折腾了两天,完成了Windows本地化安装测试(可批量、可选页、可输入图片等),文件处理后,相当于在PDF文件的每一页中添加了透明的文本层,内容检索非常效率。
| 在网页截图保存到PDF(特地选择清晰度较低文件),然后转换进行对比 | 转换后,可在文档内搜索文本内容,也能复制粘贴出来 |
| ------------------------------------------------------------ | ------------------------------------------------------------ |
| !(https://s1.ax1x.com/2022/09/30/xu7reU.png) | !(https://s1.ax1x.com/2022/09/30/xu7swF.png) |
#### 为了发个帖子,在linux服务器中部署了程序,在以下网页供大家使用测试。
[**个人服务器部署测试**](http://175.178.230.228/)
!(https://s1.ax1x.com/2022/09/30/xu7yo4.png)
## 二、使用方式
------
## 三、安装方式
------
```bash
# 服务器安装顺序
sudo apt-get -y remove ocrmypdf
sudo apt-get -y update
sudo apt-get -y install \
ghostscript \
icc-profiles-free \
libxml2 \
pngquant \
python3-pip \
tesseract-ocr \
zlib1g
pip3 install ocrmypdf
```
```python
# 简单的python代码,具体参数参考官方文档
import ocrmypdf
file = r'input.pdf'
output = r'output.pdf'
ocrmypdf.ocr(file,output ,lang=['chi_sim','eng'], deskew=True)
``` lsyh1688 发表于 2022-10-1 10:20
请教个人的win系统电脑如何实现呢?
我还没整理好如何具体流程,后续整好,测试没问题了再发 很期待,要是本地化的就完美了 看着很高级的样子,小白有点搞不懂 学习下,试试看搭建。感谢分享。 不能提交文件啊 可否打包成本地安装程序 那么少的代码。历害。 挺实用的,在一些场合需要用得到。 感觉很好。后续还能再用吗? 扫描件能单独复制文字吗