利用paddle实现图片文本智能提取

lianxiang1122 · 发表于 2024-2-22 16:55

paddle又名飞桨，是百度开发的免费开源深度学习平台，诞生出来很多优秀产品，如文心大模型。也应用于了很多产业中，详见官方主页飞桨PaddlePaddle-源于产业实践的开源深度学习平台（https://www.paddlepaddle.org.cn）。
今天分享一个开箱即用的产业级的智能自然语言的NLP预置模型，可以识别图片的中文字，并且还会分词、词法分析、句法分析、信息抽取、知识挖掘、文本纠错、文本匹配、文本摘要、闲聊、知识问答、文生图等十余项经典任务，提供产业级的效果与极致的推理性能。
首先，需要安装paddle，进入官网（https://www.paddlepaddle.org.cn），按照提示安装就行了，不再啰嗦。有GPU的可以安装GPU版本，处理速度比CPU快多了。

安装

飞桨中的模型库都依赖与paddle，安装完之后，输入import paddle ，再输入 paddle.utils.run_check()，测试一下安装是否成功。

测试paddle

因为我安装的是GPU版本，所以提示PaddlePaddle works well on 1 GPU。安装GPU版本比较麻烦，需要安装CUDA，cuDNN，新手很容易迷路，你可以安装CPU版本，直接pip安装完就能用。
paddle有很多模型，今天我们使用NLP模型，找到“产品全景”中的paddleNLP，https://www.paddlepaddle.org.cn/paddle/paddlenlp

NLP

NLP又有很多模型，我们使用ERNIE-Layout这个模型。点击进入github详细介绍页（github有时打不开，找不同的时间点多试试）。

layout

详细介绍看完了，如何使用呢？既然是开箱即用，那么我们就可以直接使用。首先，需要安装paddleNLP，跟Python其他库的安装方法一样，用pip安装。
pip install --pre --upgrade paddlenlp -f https://www.paddlepaddle.org.cn/whl/paddlenlp.html
安装完之后，输入以下命令，引出paddlenlp，并下载一些基础数据啥的。

from paddlenlp import Taskflow
docprompt = Taskflow("document_intelligence")
我们再准备一张图片，例如一张简历。我们提取图片中应聘者一些信息。

简历

我们想要在图片中找到以下3各问题，"五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?"。
我们直接把图片地址，以及我们问题抛给docprompt 。
print(docprompt([{"doc": "resume.png", "prompt": ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?"]}]))

result

我们还可以再在prompt中追加问题，如"多大年龄?", "什么学历？"

print(docprompt([{"doc": "resume.png", "prompt": ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?", "多大年龄?", "什么学历？"]}]))

zuijia

完整代码如下：
from paddlenlp import Taskflow
docprompt = Taskflow("document_intelligence")
pic_adress = "resume.png"
question = ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?", "多大年龄?", "什么学历？"]
result = docprompt([{"doc": pic_adress, "prompt": question}])
print(result)

如果你有很多张图片需要提取，那么就用上for循环，再配合上处理电子表格的库，就可以批量的把扫描图片中的信息自动提取出来了。

paddlenlp不拘泥于固定格式，例如收到的简历可能五花八门各式各样的，paddlenlp可以理解自然语言，智能的轻松的提取出图片中的内容。

sai609 · 发表于 2024-2-22 17:53

OCR识别早就可以了

blindcat · 发表于 2024-2-23 07:48

这个厉害，批量提取名片上的信息就方便了

wapjsx · 发表于 2024-2-23 08:17

sai609 发表于 2024-2-22 17:53
OCR识别早就可以了

OCR识别后呢？？？关键还是自然语言并返回结果！

IT大小白 · 发表于 2024-2-28 19:05

运行报错：
docprompt = Taskflow("document_intelligence")
RuntimeError: (NotFound) Operator (one_hot) is not registered.
[Hint: op_info_ptr should not be null.] (at ..\paddle/fluid/framework/op_info.h:152)

lianxiang1122 · 发表于 2024-2-29 09:51

IT大小白发表于 2024-2-28 19:05
运行报错：
docprompt = Taskflow("document_intelligence")
RuntimeError: (NotFound) Operator (one_h ...

我也不知道是啥问题，有可能是你的paddle不是最新版吧。建议你去官网下载最新版paddlepaddle试一试。https://www.paddlepaddle.org.cn/

greatzdl · 发表于 2024-2-29 11:21

感觉比较实用了，是不是可以把网页截图然后处理图片识别一些信息。这种新爬方法是不是很给力

crary06 · 发表于 2024-2-29 15:07

挺好的，很方便，就是不知道速度怎么样。。。。

latucc · 发表于 2024-3-14 17:58

感觉可以ocr之后，把文本和问题直接发给gpt的api，一样拿到答案还说不定更准

帐号		自动登录	找回密码
密码			注册[Register]

[Python 原创] 利用paddle实现图片文本智能提取

免费评分