cqwcns 发表于 2022-8-2 12:57

python 从图片中识别文字的问题

我希望获取某猫超市的一些产品信息,通过urllib.request,我们很容易获得html。
但经过一番检查,html中并没有优惠后的价格。优惠后的价格只显示在图片。


看来只能通过识别图片文字来获得。


关于python从图片从识别文字这种需求,各位大佬有什么第三方库推荐?感谢。



wty3025 发表于 2022-8-2 13:02

tesseract

BurYiA 发表于 2022-8-2 13:05

纯数字应该还相对好做一些,可以去github上看看开源的图文识别框架

hackerbob 发表于 2022-8-2 13:06

EasyOCR
这个挺好的

chinapython 发表于 2022-8-2 13:18

1、随便找个ocr模型都可以跑的,因为只是简单的数字,这里建议在github上找点 运行速度快的模型
2、我也看了一下 天猫超市的 这个图片上有价格的情况,不建议直接提取图片上的价格,因为很多图片上没有价格

thesunone 发表于 2022-8-2 13:39

求助帖里也能学习!

Prozacs 发表于 2022-8-2 14:28

优惠价格在图片位置是固定的。直接截取价格那一小部分图片就比较好识别了。

52pojiema 发表于 2022-8-2 14:57

我记得价格在一个文件里

yxnwh 发表于 2022-8-2 15:26

百度ocr,直接文字识别出来,只不过识别出来的优惠价格没有什么规律,你要找到批量提取出来的办法

cqwcns 发表于 2022-8-2 16:55

这样可以
import pytesseract
from PIL import Image

print('开始')
img = Image.open("D:\\Files\\python\\img_to_str\\test2.jpg")
# img = Image.open('//img.alicdn.com/bao/uploaded/i2/6000000008042/O1CN01DUtFLo29HHvwMKXCo_!!6000000008042-0-picassoopen.jpg')

# 剪裁出右下角
region = img.crop((585, 700, 800, 800))

str = pytesseract.image_to_string(region, lang="chi_sim")

print(str)
print('完成')
页: [1]
查看完整版本: python 从图片中识别文字的问题