调用百度云自动批量识别辽事通疫苗接种信息

w3812247 发表于 2022-12-29 08:24

本帖最后由 w3812247 于 2022-12-29 08:25 编辑

最近有个朋友张伟的公司需要统计一下公司所有人的疫苗接种情况，大家都把截图传给了张伟，但是一个一个进行统计真的是太慢了，于是张伟就找到了我。
这个文字识别调用的是百度云的，请求过于频繁可能会拒绝访问一小会，大家可以根据需要对代码进行改造，把识别过的移入到另一个文件夹中，这里仅给大家提供一个思路。
import requests
import base64
import time

def ocr(img_path: str) -> list:
'''
根据图片路径，将图片转为文字，返回识别到的字符串列表

'''
# 请求头
#time.sleep(10)
headers = {
   'Host': 'cloud.baidu.com',
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.76',
   'Accept': '*/*',
   'Origin': 'https://cloud.baidu.com',
   'Sec-Fetch-Site': 'same-origin',
   'Sec-Fetch-Mode': 'cors',
   'Sec-Fetch-Dest': 'empty',
   'Referer': 'https://cloud.baidu.com/product/ocr/general',
   'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
}
# 打开图片并对其使用 base64 编码
with open(img_path, 'rb') as f:
   img = base64.b64encode(f.read())
data = {
   'image': 'data:image/jpeg;base64,'+str(img),
   'image_url': '',
   'type': 'https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic',
   'detect_direction': 'false'
}
# 开始调用 ocr 的 api
response = requests.post(
   'https://cloud.baidu.com/aidemo', headers=headers, data=data)

# 设置一个空的列表，后面用来存储识别到的字符串
ocr_text = []

result = response.json()['data']

if isinstance(result,dict):
   if not result.get('words_result'):
         return []
   # 将识别的字符串添加到列表里面
   for r in result['words_result']:
         text = r['words'].strip()
         ocr_text.append(text+"####")
   # 返回字符串列表
return ocr_text

'''
img_path 里面填图片路径,这里分两种情况讨论:
第一种:假设你的代码跟图片是在同一个文件夹，那么只需要填文件名,例如 test1.jpg (test1.jpg 是图片文件名)
第二种:假设你的图片全路径是 D:/img/test1.jpg ,那么你需要填 D:/img/test1.jpg
'''
import os
dirs = os.listdir(r'D:\1ocr') #疫苗接种截图目录
#print(dirs)
for dir in dirs:
filepath = "D:\\1ocr\\"+dir

img_path = filepath
# content 是识别后得到的结果
content = "".join(ocr(img_path))
# 输出结果

if len(content)>1:
   strname = content.split("被接种者姓名")
   if len(strname)>1:
         strname = str(strname)
         strname = strname.replace("#","").replace("年龄","")
         print(strname)
         strlast = content.split("/")
         strlastlen = len(strlast)
         strri = str(strlast)
         stryue = strlast
         strnian = str(strlast)[-4:]
         #print(len(strlast))
         #print(str(strlast)) #日
         #print(strlast) #月
         #print(str(strlast)[-4:]) #年
         print ("最后一次接种：",strnian+"-"+stryue+"-"+strri)

freshegg 发表于 2022-12-29 11:14

张伟是沈阳哪个公司的

w3812247 发表于 2022-12-29 12:09

freshegg 发表于 2022-12-29 11:14
张伟是沈阳哪个公司的

为啥非得是沈阳的呢，哈哈{:1_904:}

ExPensive 发表于 2022-12-29 12:29

我福建的

永无止境000 发表于 2022-12-29 16:17

学习学习

freshegg 发表于 2022-12-29 17:40

w3812247 发表于 2022-12-29 12:09
为啥非得是沈阳的呢，哈哈

;www理解有误，回帖有误，哈哈哈

ttsdy 发表于 2022-12-29 18:29

好好学习

constwm 发表于 2022-12-30 08:51

学习学习

nullable 发表于 2023-1-2 14:28

看到这儿，我只能说谢谢张伟的朋友分享代码

ljwwwcr 发表于 2023-1-5 15:50

谢谢分享代码:lol

页: [1]

吾爱破解 - 52pojie.cn's Archiver

调用百度云自动批量识别辽事通疫苗接种信息