吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3858|回复: 9
收起左侧

[Python 转载] pdf批量识别片段文字内容小工具

  [复制链接]
顺其自然1231 发表于 2020-5-1 16:42
本帖最后由 顺其自然1231 于 2020-5-1 16:44 编辑

应用场景
某员工收到包含几百页的pdf文件,这几百页pdf文件格式都是一样的。
员工需要获取其中的一个送货单编号,根据这个送货单号匹配送货项目,
送货数量等等,且无法获取excel版本。
样本生成
为了不泄露公司机密,下面将使用百度公开的一个送货单模板生成pdf,来实现送货编号的获取。

假设要获取订单编号,且文件格式为pdf,测试版本共有4页,格式完全一样,但是编号不相同。


首先使用excel自带的pdf打印机生成pdf样本。

导出图片
  • 打开pdf识别工具,选择文件,选择导出并切割
  • 之后会生成一个“导出路径”文件夹,里面有导出的图片和切割的图片。
  • 打开切割后文件夹,发现并没有订单编号的图片,这是因为需要你手动获取切割位置,
  • 默认的切割位置是我帮女朋友做他们公司坑爹的pdf文件定位的,所以你在使用的时候需要手动定位
  • 下面将使用网页版ps来获取切割位置
获取切割位置
  • 打开网页版ps:https://www.uupoop.com/
  • 上传刚刚导出的图片
  • 使用矩形框工具,然后拉到“项目编号”所在单元格的左上角,记录一下长宽

  • 左上角的点,高508,宽198
  • 然后测试“项目编号”右下角的点所在位置
  • 右下角的点,长715,宽239。记录下这两个坐标。
再次切割
  • 和之前一样,重新打开工具,填入点(508,198),(715, 239)
  • 查看切割效果,目测还不错,可以作为下面的识别材料了。

获取百度AI文字识别api
  • 搜索“百度AI开放平台”,点击控制台,注册登录
  • 点击文字识别,选择创建应用,随便输入应用名和用途
  • 点击管理应用,记录你的api相关信息。
  • 填入pdf识别工具自动生成的api.json文件(可以右键,打开方式,记事本打开,推荐使用Notepad++)

  • 填写好后保存,准备工作完成。
识别片段
  • 点击“开始识别”即会自动识别刚刚切割生成的图片文件。
  • 可以选择“普通识别”, “普通识别高精度版”, “识别数字”, “识别票据”
  • 本次使用普通识别高精度版测试识别效果。



  • 识别效果


目前准确率100%,没有出现错误。
软件及模板分享
python源码开源地址:https://github.com/Tlntin/pdf_tools
大致思路,利用fitz利用将pdf模块转png图片。
然后用pillow 的crop方法切割图片片段,
最后使用百度aip进行文字识别。

成品分享地址:https://ztjs.lanzouj.com/b00ti6wcd
密码:7ybn

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

liuyedao 发表于 2020-5-1 16:44
我感觉百度表格调用没有腾讯好,你要不完了试试?申请腾讯优图的api看看
 楼主| 顺其自然1231 发表于 2020-5-1 16:46
liuyedao 发表于 2020-5-1 16:44
我感觉百度表格调用没有腾讯好,你要不完了试试?申请腾讯优图的api看看

没用识别表格的方法,直接切出来的图片片段,然后识别文字,识别文字应该百度强一点。
liuyedao 发表于 2020-5-1 16:47
顺其自然1231 发表于 2020-5-1 16:46
没用识别表格的方法,直接切出来的图片片段,然后识别文字,识别文字应该百度强一点。

嗯,没仔细看,我都锅,我看都是表格以为您是直接识别表格了
 楼主| 顺其自然1231 发表于 2020-5-1 16:54
liuyedao 发表于 2020-5-1 16:47
嗯,没仔细看,我都锅,我看都是表格以为您是直接识别表格了

嗯嗯。没事。
rrxfw 发表于 2020-5-1 18:01
很强大的感觉
lizhipei78 发表于 2020-5-1 18:18
个人觉得意义不大,即使是同一模版下,位置亦会有稍微的偏差,你这个是靠软件精准位置,如果PDF文档稍微有点偏移,都会出错
 楼主| 顺其自然1231 发表于 2020-5-1 19:15
lizhipei78 发表于 2020-5-1 18:18
个人觉得意义不大,即使是同一模版下,位置亦会有稍微的偏差,你这个是靠软件精准位置,如果PDF文档稍微有 ...

稍微偏移倒没事,主要能把那个单元格弄进去就可以了。
wang19940311 发表于 2020-5-2 06:25
可以试一试  感谢
intel286 发表于 2020-5-2 06:58
腾讯优图只能识别单张身份证,个人觉得意义不大
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-17 07:43

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表