python 从图片中识别文字的问题

cqwcns 发表于 2022-8-2 12:57

我希望获取某猫超市的一些产品信息，通过urllib.request，我们很容易获得html。
但经过一番检查，html中并没有优惠后的价格。优惠后的价格只显示在图片。

看来只能通过识别图片文字来获得。

关于python从图片从识别文字这种需求，各位大佬有什么第三方库推荐？感谢。

wty3025 发表于 2022-8-2 13:02

tesseract

BurYiA 发表于 2022-8-2 13:05

纯数字应该还相对好做一些，可以去github上看看开源的图文识别框架

hackerbob 发表于 2022-8-2 13:06

EasyOCR
这个挺好的

chinapython 发表于 2022-8-2 13:18

1、随便找个ocr模型都可以跑的，因为只是简单的数字，这里建议在github上找点运行速度快的模型
2、我也看了一下天猫超市的这个图片上有价格的情况，不建议直接提取图片上的价格，因为很多图片上没有价格

thesunone 发表于 2022-8-2 13:39

求助帖里也能学习！

Prozacs 发表于 2022-8-2 14:28

优惠价格在图片位置是固定的。直接截取价格那一小部分图片就比较好识别了。

52pojiema 发表于 2022-8-2 14:57

我记得价格在一个文件里

yxnwh 发表于 2022-8-2 15:26

百度ocr，直接文字识别出来，只不过识别出来的优惠价格没有什么规律，你要找到批量提取出来的办法

cqwcns 发表于 2022-8-2 16:55

这样可以
import pytesseract
from PIL import Image

print('开始')
img = Image.open("D:\\Files\\python\\img_to_str\\test2.jpg")
# img = Image.open('//img.alicdn.com/bao/uploaded/i2/6000000008042/O1CN01DUtFLo29HHvwMKXCo_!!6000000008042-0-picassoopen.jpg')

# 剪裁出右下角
region = img.crop((585, 700, 800, 800))

str = pytesseract.image_to_string(region, lang="chi_sim")

print(str)
print('完成')

页: [1]

吾爱破解 - 52pojie.cn's Archiver

python 从图片中识别文字的问题