本帖最后由 trash 于 2022-11-13 13:51 编辑
这边提供另一个网站的美女壁纸爬取,质量更高(几mb一张)
新网站和彼岸结构差不多就不分析了大家可以自己试试首页网址:https://desk.3gbizhi.com/deskMV/
同样第一步:构造网页地址
[Python] 纯文本查看 复制代码 #美女壁纸下载(副本原版修改)
import requests
from bs4 import BeautifulSoup
myheader = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}
urls = ['https://desk.3gbizhi.com/deskMV/']#构造每页网址注意这里第一页是单独出来的无法在for循环里构造
all_url = [] #设置空列表
for k in range(2,2): #构造每页网址
page = f'https://desk.3gbizhi.com/deskMV/index_{k}.html'
urls.append(page)
for url in urls: #由于每页网址上的图片画质很低所以这里选择先爬取每张图图片的超链接
r = requests.get(url,headers=myheader)#请求网页
r.encoding='utf-8' #中文编码
sp = BeautifulSoup(r.text,'lxml') #解析网页
tg=sp.select_one('div.contlistw').select('li')
for t in tg: #构造循环提取图片超链接
pic_url = t.a.get('href') #构造网址形式
all_url.append(pic_url) #存入all_url列表中
第二步:提取高清壁纸链接
[Python] 纯文本查看 复制代码 pic_allurl=[] #对每张图片的网页进行分析并构造下载网址并爬取高质量图片
for url in all_url: # 遍历网址
r = requests.get(url) # 请求网页
r.encoding='utf-8' #用中文编码
sp = BeautifulSoup(r.text,'lxml') # 解析网页
src=(sp.select_one('div.morew').a.get('href')) #提取div标签里的高质量图片链接
title=sp.h2.string #提取图片标题
pic_allurl.append((title,src)) #将构造好的网址和标题作为元组放进pic_allurl=[] 第三步:保存
[Python] 纯文本查看 复制代码 import os
if not os.path.exists('美女壁纸副本'): #如果不存在文件夹则创立文件夹
os.mkdir('美女壁纸副本')
for title,src in pic_allurl: #拆解元组
r=requests.get(src,headers=myheader)#请求二进制图片
fileanme = './美女壁纸副本/'+title+src.split('/')[-1] #构造名字 按斜线切开取最后一个元素 同时确定了文件后缀
with open(fileanme,'wb') as f: #新建文件
f.write(r.content) #写入
代码运行图如下:
源代码:美女壁纸-三六壁纸.ipynb」,点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速播放。链接:https://www.aliyundrive.com/s/dt1rTe1xfgH
成品链接:https://wwf.lanzouw.com/it87V0ftvd7g |