【原创源码】【python】中文编程python 爬取美女图片

v000085712 发表于 2021-3-20 16:29

import requests,re,time
网址 = input('粘贴妹子图套图首页地址')
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
'Referer': 'https://www.mzitu.com'
}
def 获取网页源代码(网址):
请求发送 = requests.get(网址,headers = headers)
if 请求发送.status_code == 200:
   网页源代码 = 请求发送.text
return 网页源代码

def 分析单页信息(网页源代码):
主图信息= re.search('class="main-title">(.*?)</h2>.*?"blur" src="(.*?)".*?>', 网页源代码 , re.S)
主图最大页码 = (re.findall(r'<span>(\d+)',网页源代码,re.S)[-1])
图片名称 = 主图信息.group(1)
图片链接 = 主图信息.group(2)
return (主图最大页码,图片名称,图片链接)

def 获取分页网址(网址,主图最大页码):
页序 = []
for 页码 in range(1,int(主图最大页码)):
   if 页码 < 2:
         综合网址 = 网址
         页序.append(综合网址)
   else:
         综合网址 = 网址 + '/' + str(页码)
         页序.append(综合网址)
return(页序)

def 下载图片(图片名称,图片地址,header):
file_path = r"E:\SynologyDrive\妹子图\20200528"
with open(str(图片名称) + '.jpg', 'wb') as 图片:
   图片信息 = requests.get(图片地址, headers=header).content
   图片.write(图片信息)
   print(图片名称)

def 最终呈现(header,网址):
网页源代码 = 获取网页源代码(网址)
单页信息 = 分析单页信息(网页源代码)
分页 = 获取分页网址(网址,int(单页信息))
for 网址 in 分页:
   源代码 = 获取网页源代码(网址)
   图片信息 = 分析单页信息(源代码)
   下载图片(图片信息,图片信息,header)
   time.sleep(1.5)
最终呈现(headers,网址)

v000085712 发表于 2021-3-20 20:42

咕咕咕咕咕咕发表于 2021-3-20 17:14
感觉有点麻烦

看起来还好

一条孤独的狗 发表于 2021-3-20 16:33

第一次见变量全部命名为中文的,中文和英文切来切去不会很累吗

阿傑发表于 2021-3-20 16:40

很棒，感谢分享，就是感觉看着有点费劲{:1_909:}

Cashion 发表于 2021-3-20 17:20

感谢楼主分享，看看有多少绅士潜水{:301_998:}

bluerabbit 发表于 2021-3-20 17:50

看着实在是费劲呀，有点易语言的即视感

v000085712 发表于 2021-3-20 20:41

一条孤独的狗发表于 2021-3-20 16:33
第一次见变量全部命名为中文的,中文和英文切来切去不会很累吗

比纯英文费劲儿多了,但是适合国人新手学习阿,简单易懂

v000085712 发表于 2021-3-20 20:41

bluerabbit 发表于 2021-3-20 17:50
看着实在是费劲呀，有点易语言的即视感

说真的,写的更费劲儿中英文来回切换

lbkls 发表于 2021-3-20 20:49

支持一下，看起来还行

冷酷到底 发表于 2021-3-24 19:20

试了一下，没有成功{:1_925:}

页: [1]

吾爱破解 - 52pojie.cn's Archiver

【原创源码】【python】中文编程python 爬取美女图片