python 从图片中识别文字的问题
我希望获取某猫超市的一些产品信息,通过urllib.request,我们很容易获得html。但经过一番检查,html中并没有优惠后的价格。优惠后的价格只显示在图片。
看来只能通过识别图片文字来获得。
关于python从图片从识别文字这种需求,各位大佬有什么第三方库推荐?感谢。
tesseract 纯数字应该还相对好做一些,可以去github上看看开源的图文识别框架 EasyOCR
这个挺好的 1、随便找个ocr模型都可以跑的,因为只是简单的数字,这里建议在github上找点 运行速度快的模型
2、我也看了一下 天猫超市的 这个图片上有价格的情况,不建议直接提取图片上的价格,因为很多图片上没有价格 求助帖里也能学习! 优惠价格在图片位置是固定的。直接截取价格那一小部分图片就比较好识别了。 我记得价格在一个文件里 百度ocr,直接文字识别出来,只不过识别出来的优惠价格没有什么规律,你要找到批量提取出来的办法 这样可以
import pytesseract
from PIL import Image
print('开始')
img = Image.open("D:\\Files\\python\\img_to_str\\test2.jpg")
# img = Image.open('//img.alicdn.com/bao/uploaded/i2/6000000008042/O1CN01DUtFLo29HHvwMKXCo_!!6000000008042-0-picassoopen.jpg')
# 剪裁出右下角
region = img.crop((585, 700, 800, 800))
str = pytesseract.image_to_string(region, lang="chi_sim")
print(str)
print('完成')
页:
[1]