好友
阅读权限 10
听众
最后登录 1970-1-1
paddle又名飞桨,是百度开发的免费开源深度学习平台,诞生出来很多优秀产品,如文心大模型。也应用于了很多产业中,详见官方主页飞桨PaddlePaddle-源于产业实践的开源深度学习平台(https://www.paddlepaddle.org.cn)。
今天分享一个开箱即用的产业级的智能自然语言的NLP预置模型,可以识别图片的中文字,并且还会 分词、词法分析、句法分析、信息抽取、知识挖掘、文本纠错、文本匹配、文本摘要、闲聊、知识问答、文生图等十余项经典任务,提供产业级的效果与极致的推理性能。
首先,需要安装paddle,进入官网 (https://www.paddlepaddle.org.cn),按照提示安装就行了,不再啰嗦。有GPU的可以安装GPU版本,处理速度比CPU快多了。
安装
飞桨中的模型库都依赖与paddle,安装完之后,输入import paddle ,再输入 paddle.utils.run_check(),测试一下安装是否成功。
测试paddle
因为我安装的是GPU版本,所以提示PaddlePaddle works well on 1 GPU。安装GPU版本比较麻烦,需要安装CUDA , cuDNN ,新手很容易迷路,你可以安装CPU版本,直接pip安装完就能用。
paddle有很多模型,今天我们使用NLP模型,找到“产品全景”中的paddleNLP,https://www.paddlepaddle.org.cn/paddle/paddlenlp
NLP
NLP又有很多模型,我们使用ERNIE-Layout这个模型。点击进入 github详细介绍页(github有时打不开,找不同的时间点多试试)。
layout
详细介绍看完了,如何使用呢?既然是开箱即用,那么我们就可以直接使用。首先,需要安装paddleNLP,跟Python其他库的安装方法一样,用pip安装。
pip install --pre --upgrade paddlenlp -f https://www.paddlepaddle.org.cn/whl/paddlenlp.html
安装完之后,输入以下命令,引出paddlenlp,并下载一些基础数据啥的。
from paddlenlp import Taskflow
docprompt = Taskflow("document_intelligence")
我们再准备一张图片,例如一张简历。我们提取图片中应聘者一些信息。
简历
我们想要在图片中找到以下3各问题,"五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?"。
我们直接把图片地址,以及我们问题抛给docprompt 。
print(docprompt([{"doc": "resume.png", "prompt": ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?"]}]))
result
我们还可以再在prompt中追加问题,如"多大年龄?", "什么学历?"
print(docprompt([{"doc": "resume.png", "prompt": ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?", "多大年龄?", "什么学历?"]}]))
zuijia
完整代码如下:
from paddlenlp import Taskflow
docprompt = Taskflow("document_intelligence")
pic_adress = "resume.png"
question = ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?", "多大年龄?", "什么学历?"]
result = docprompt([{"doc": pic_adress, "prompt": question}])
print(result)
如果你有很多张图片需要提取,那么就用上for循环,再配合上处理电子表格的库,就可以批量的把扫描图片中的信息自动提取出来了。
paddlenlp不拘泥于固定格式,例如收到的简历可能五花八门各式各样的,paddlenlp可以理解自然语言,智能的轻松的提取出图片中的内容。
引用
免费评分
查看全部评分
发帖前要善用【论坛搜索 】 功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。