【原创源码】【python】中文编程python 爬取美女图片

v000085712 · 发表于 2021-3-20 16:29

import requests,re,time
网址 = input('粘贴妹子图套图首页地址')
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
'Referer': 'https://www.mzitu.com'
}
def 获取网页源代码(网址):
请求发送 = requests.get(网址,headers = headers)
if 请求发送.status_code == 200:
网页源代码 = 请求发送.text
return 网页源代码

def 分析单页信息(网页源代码):
主图信息 = re.search('class="main-title">(.?)</h2>.?"blur" src="(.?)".?>', 网页源代码 , re.S)
主图最大页码 = (re.findall(r'<span>(\d+)',网页源代码,re.S)[-1])
图片名称 = 主图信息.group(1)
图片链接 = 主图信息.group(2)
return (主图最大页码,图片名称,图片链接)

def 获取分页网址(网址,主图最大页码):
页序 = []
for 页码 in range(1,int(主图最大页码)):
if 页码 < 2:
综合网址 = 网址
页序.append(综合网址)
else:
综合网址 = 网址 + '/' + str(页码)
页序.append(综合网址)
return(页序)

def 下载图片(图片名称,图片地址,header):
file_path = r"E:\SynologyDrive\妹子图\20200528"
with open(str(图片名称) + '.jpg', 'wb') as 图片:
图片信息 = requests.get(图片地址, headers=header).content
图片.write(图片信息)
print(图片名称)

def 最终呈现(header,网址):
网页源代码 = 获取网页源代码(网址)
单页信息 = 分析单页信息(网页源代码)
分页 = 获取分页网址(网址,int(单页信息[0]))
for 网址 in 分页:
源代码 = 获取网页源代码(网址)
图片信息 = 分析单页信息(源代码)
下载图片(图片信息[1],图片信息[2],header)
time.sleep(1.5)
最终呈现(headers,网址)

v000085712 · 发表于 2021-3-20 20:42

咕咕咕咕咕咕发表于 2021-3-20 17:14
感觉有点麻烦

看起来还好

一条孤独的狗 · 发表于 2021-3-20 16:33

第一次见变量全部命名为中文的,中文和英文切来切去不会很累吗

阿傑 · 发表于 2021-3-20 16:40

很棒，感谢分享，就是感觉看着有点费劲

Cashion · 发表于 2021-3-20 17:20

感谢楼主分享，看看有多少绅士潜水

bluerabbit · 发表于 2021-3-20 17:50

看着实在是费劲呀，有点易语言的即视感

v000085712 · 发表于 2021-3-20 20:41

一条孤独的狗发表于 2021-3-20 16:33
第一次见变量全部命名为中文的,中文和英文切来切去不会很累吗

比纯英文费劲儿多了,但是适合国人新手学习阿,简单易懂

v000085712 · 发表于 2021-3-20 20:41

bluerabbit 发表于 2021-3-20 17:50
看着实在是费劲呀，有点易语言的即视感

说真的,写的更费劲儿中英文来回切换

lbkls · 发表于 2021-3-20 20:49

支持一下，看起来还行

冷酷到底 · 发表于 2021-3-24 19:20

试了一下，没有成功

帐号		自动登录	找回密码
密码			注册[Register]

[Python 原创] 【原创源码】【python】中文编程python 爬取美女图片

免费评分