python爬虫下载王者荣耀全皮肤高清大图

yurika34 · 发表于 2021-8-17 00:53

本帖最后由 yurika34 于 2021-8-17 12:10 编辑

1.说是高清略有过分，不过1920×882的像素还是可以用作笔记本电脑的桌面的
2.借鉴了一些网上的资料，网址如下：
(1条消息) 爬虫小程序 - 爬取王者荣耀全皮肤_君莫笑-CSDN博客_爬虫程序
这里告诉我王者官网上有一个现在已经不显示了的json文件，但它还是时刻保持更新，可以通过网址访问到。
(1条消息) 利用python爬虫爬王者荣耀全英雄全皮肤(思路+代码)_歪歪的博客-CSDN博客
这个博客告诉我皮肤图片的网址，需要更改的参数很少，只有英雄编号和皮肤编号
(1条消息) python文件打包技术免费教程_君莫笑-CSDN博客
这是python文件打包的教程，挺简单的
3.其实爬取的技术含量并不高，但是直接爬详情页会少13个英雄的数据，用selenium又考虑到每个人的谷歌浏览器版本不同，chromedriver不能混用。所以需要结合上面那个古老的json文件
4.因为这个文件是我发给朋友的生日礼物，所以原来的代码里有祝福语，可执行文件不能直接发出来
5.需要纯净的可执行文件的话可以在下面回复我

PS：小白第一次发帖，上次被吞了，这次希望审核大大别吞帖

yurika34 · 发表于 2021-8-17 01:02

本帖最后由 yurika34 于 2021-8-17 12:47 编辑

阿里云盘链接：
https://www.aliyundrive.com/s/iMzNsLr3Pkg

先上总体的源码

[Python] 纯文本查看 复制代码

# 1.导入所需模块
import requests
from bs4 import BeautifulSoup
import re
import os

# print(len(json_list)) # 英雄总数量：95个英雄
# print(json_list) # 打印结果,了解json_list的构造


#整体思路：从json文件获得每个英雄的详情页、名称、序号，然后去每个英雄的详情页获取皮肤的数量、各皮肤名称和对应链接
#最后注意命名，用os新建对应英雄名称的文件夹下载图片
url_main = 'https://pvp.qq.com/web201605/herolist.shtml'
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.55'}  # 添加用户代{过}{滤}理
def getHtml(url):
    global headers
    r = requests.get(url, headers=headers,timeout=10)
    r.raise_for_status()
    r.encoding=r.apparent_encoding#防止乱码
    return r.text
# 由网址获取返回的text

def getLink():
    # global headers
    print("正在查找所有英雄链接......")
    # soup=BeautifulSoup(html,'html.parser')
    # heroList=soup.find_all('a',href=re.compile(r'herodetail/\d{3}.shtml'))#正则查找英雄链接，是个列表
    url = 'http://pvp.qq.com/web201605/js/herolist.json' #奇怪的json文件
    r = requests.get(url, headers=headers,timeout=10)
    r.encoding = r.apparent_encoding  # 防止乱码
    heroList = r.json()
    print("获取英雄链接成功!")
    for each in heroList:
        id = each['ename']  # 获得英雄序号
        link='herodetail/'+str(id)+'.shtml'#获取英雄所在链接
        name=each['cname']#获取英雄名字
        savePic(link, name, id)
    print("所有英雄的皮肤下载完成!")
#由

def savePic(link,name,id):#上面代码中返回的链接,名字和英雄序号
    url='https://pvp.qq.com/web201605/'+link
    html=getHtml(url)
    soup = BeautifulSoup(html, 'html.parser')
    skinlist=soup.find('ul',class_='pic-pf-list')['data-imgname']#寻找皮肤字符串
    skin_count=skinlist.count('&')#找到皮肤数量
    skinlist=skinlist.replace('&','')#去&
    for i in range(10):#去数字
        skinlist=skinlist.replace(str(i),'')
    skin_name=skinlist.split('|')#得到皮肤名字列表
    localPath = 'pic/' + name + '/'  # 创建每个英雄的文件夹
    if not os.path.exists(localPath):  # 新建文件夹,判断是否存在
        os.mkdir(localPath)
    url_base = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/'  # 图片网址固定前缀
    global headers
    for i in range(1, skin_count + 1):
        # 网址拼接, 构造完整的图片网址
        url_pic = url_base + str(id) + '/' + str(id) + '-bigskin-' + str(i) + '.jpg'
        try:
            # 获取图片信息
            print("正在下载"+name+"的"+skin_name[i - 1]+"皮肤图片")
            picture = requests.get(url_pic,headers=headers).content
            # print(picture) # 打印图片网址
            # 下载图片 文件路径为: pic/英雄名/英雄名-皮肤名.jpg (需要新建pic文件夹)
            with open('pic/' + name + '/' + skin_name[i - 1] + '.jpg', 'wb') as f:
                f.write(picture)
            print("--->成功!")
        except requests.exceptions.ConnectionError:
            print('数据异常或错误!当前图片无法下载')
    print("所有"+name+"的英雄皮肤下载完成!")

def main():
    # main = getHtml(url_main)
    getLink()
main()

yurika34 · 发表于 2021-8-17 01:34

本帖最后由 yurika34 于 2021-8-17 01:36 编辑

[Python] 纯文本查看 复制代码

def savePic(link,name,id):#上面代码中返回的链接,名字和英雄序号
    url='https://pvp.qq.com/web201605/'+link
    html=getHtml(url)
    soup = BeautifulSoup(html, 'html.parser')
    skinlist=soup.find('ul',class_='pic-pf-list')['data-imgname']#寻找皮肤字符串
    skin_count=skinlist.count('&')#找到皮肤数量
    skinlist=skinlist.replace('&','')#去&
    for i in range(10):#去数字
        skinlist=skinlist.replace(str(i),'')
    skin_name=skinlist.split('|')#得到皮肤名字列表
    localPath = 'pic/' + name + '/'  # 创建每个英雄的文件夹
    if not os.path.exists(localPath):  # 新建文件夹,判断是否存在
        os.mkdir(localPath)
    url_base = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/'  # 图片网址固定前缀
    global headers
    for i in range(1, skin_count + 1):
        # 网址拼接, 构造完整的图片网址
        url_pic = url_base + str(id) + '/' + str(id) + '-bigskin-' + str(i) + '.jpg'
        try:
            # 获取图片信息
            print("正在下载"+name+"的"+skin_name[i - 1]+"皮肤图片")
            picture = requests.get(url_pic,headers=headers).content
            # print(picture) # 打印图片网址
            # 下载图片 文件路径为: pic/英雄名/英雄名-皮肤名.jpg (需要新建pic文件夹)
            with open('pic/' + name + '/' + skin_name[i - 1] + '.jpg', 'wb') as f:
                f.write(picture)
            print("--->成功!")
        except requests.exceptions.ConnectionError:
            print('数据异常或错误!当前图片无法下载')
    print("所有"+name+"的英雄皮肤下载完成!")

这段代码是整篇的重点，其实如果不想按英雄分类，并且每个皮肤都命名，爬取所有英雄，而且将来也能爬取的情况下，5行就解决
这个函数接收的参数是英雄链接，英雄编号，英雄名称
看起来是三个参数，其实只有两个。
重点在于，王者不同的英雄介绍网站只差一个编号，同一英雄不同皮肤的网站只差一个数字
而这个数字就是英雄编号

明天再码字，要成品的留言，卑微要求。。。3个人我就发exe文件

yurika34 · 发表于 2021-8-17 00:55

本帖最后由 yurika34 于 2021-8-17 01:38 编辑

https://blog.csdn.net/WeiLanooo/article/details/100547708
https://blog.csdn.net/qq_43461749/article/details/103312044
这是上面的网站，不知道是不是浏览器的原因已复制就变成这副德行

yurika34 · 发表于 2021-8-17 01:07

[Python] 纯文本查看 复制代码

# 1.导入所需模块
import requests
from bs4 import BeautifulSoup
import re
import os

[Python] 纯文本查看 复制代码

url_main = 'https://pvp.qq.com/web201605/herolist.shtml'
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.55'}  # 添加用户代{过}{滤}理

经典requests库提取，bs解析的组合
re用来开正则表达式
os是最没用的，用于创建文件夹，如果不想分类甚至可以不加
添加请求头告诉天美我们是大大的良民

yurika34 · 发表于 2021-8-17 01:13

本帖最后由 yurika34 于 2021-8-17 01:15 编辑

[Python] 纯文本查看 复制代码

def getHtml(url):
    global headers
    r = requests.get(url, headers=headers,timeout=10)
    r.raise_for_status()
    r.encoding=r.apparent_encoding#防止乱码
    return r.text
# 由网址获取返回的text

这一段看似平平无奇，实则暗藏C语言拿优的学生的基本功
先global 把headers拉进函数，
然后经典requests请求，设计timeout防止被封了IP还傻等着
调用一下状态码，因为觉得没有问题就没有把状态码打印出来
防乱码的那一行很有必要，因为这个网页是gbk编码，用utf-8不会报错，但会出现各种奇怪的符号让你怀疑天美是不是又用了什么加密手段

yurika34 · 发表于 2021-8-17 01:25

[Python] 纯文本查看 复制代码

def getLink():
    # global headers
    print("正在查找所有英雄链接......")
    # soup=BeautifulSoup(html,'html.parser')
    # heroList=soup.find_all('a',href=re.compile(r'herodetail/\d{3}.shtml'))#正则查找英雄链接，是个列表
    url = 'http://pvp.qq.com/web201605/js/herolist.json' #奇怪的json文件
    r = requests.get(url, headers=headers,timeout=10)
    r.encoding = r.apparent_encoding  # 防止乱码
    heroList = r.json()
    print("获取英雄链接成功!")
    for each in heroList:
        id = each['ename']  # 获得英雄序号
        link='herodetail/'+str(id)+'.shtml'#获取英雄所在链接
        name=each['cname']#获取英雄名字
        savePic(link, name, id)
    print("所有英雄的皮肤下载完成!")

这串代码很长但没甚么要讲的，打了注释的是借鉴的帖子里的代码，不够完善，可以直接不看
大家可以把里面json文件的网址复制到浏览器里下载，我的附件里也有，用记事本打开就可以看到json文件的结构
json文件里有英雄的名称、编号、皮肤
之前的想法是爬json文件里的皮肤
但是呢，仔细一看，镜的炽阳神光，赵云的龙胆。一些英雄的原皮它都没有。
不想尽善尽美，爬这里的就行了，30行代码解决问题

Strive8 · 发表于 2021-8-17 08:19

楼主加油，支持一波

龍謹 · 发表于 2021-8-17 08:20

谢谢分享，学不学得到，先学！

dork · 发表于 2021-8-17 08:52

EXE单文件下载：http://www.sowosky.com/Upload/Ne ... 817005125_25954.rar

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] python爬虫下载王者荣耀全皮肤高清大图

免费评分

免费评分