v000085712 发表于 2021-3-20 16:29

【原创源码】【python】中文编程python 爬取美女图片

import requests,re,time
网址 = input('粘贴妹子图套图首页地址')
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'Referer': 'https://www.mzitu.com'
}
def 获取网页源代码(网址):
    请求发送 = requests.get(网址,headers = headers)
    if 请求发送.status_code == 200:
      网页源代码 = 请求发送.text
    return 网页源代码

def 分析单页信息(网页源代码):
    主图信息= re.search('class="main-title">(.*?)</h2>.*?"blur" src="(.*?)".*?>', 网页源代码 , re.S)
    主图最大页码 = (re.findall(r'<span>(\d+)',网页源代码,re.S)[-1])
    图片名称 = 主图信息.group(1)
    图片链接 = 主图信息.group(2)
    return (主图最大页码,图片名称,图片链接)



def 获取分页网址(网址,主图最大页码):
    页序 = []
    for 页码 in range(1,int(主图最大页码)):
      if 页码 < 2:
            综合网址 = 网址
            页序.append(综合网址)
      else:
            综合网址 = 网址 + '/' + str(页码)
            页序.append(综合网址)
    return(页序)


def 下载图片(图片名称,图片地址,header):
    file_path = r"E:\SynologyDrive\妹子图\20200528"
    with open(str(图片名称) + '.jpg', 'wb') as 图片:
      图片信息 = requests.get(图片地址, headers=header).content
      图片.write(图片信息)
      print(图片名称)

def 最终呈现(header,网址):
    网页源代码 = 获取网页源代码(网址)
    单页信息 = 分析单页信息(网页源代码)
    分页 = 获取分页网址(网址,int(单页信息))
    for 网址 in 分页:
      源代码 = 获取网页源代码(网址)
      图片信息 = 分析单页信息(源代码)
      下载图片(图片信息,图片信息,header)
      time.sleep(1.5)
最终呈现(headers,网址)

v000085712 发表于 2021-3-20 20:42

咕咕咕咕咕咕 发表于 2021-3-20 17:14
感觉有点麻烦

看起来还好

一条孤独的狗 发表于 2021-3-20 16:33

第一次见变量全部命名为中文的,中文和英文切来切去不会很累吗

阿傑 发表于 2021-3-20 16:40

很棒,感谢分享,就是感觉看着有点费劲{:1_909:}

Cashion 发表于 2021-3-20 17:20

感谢楼主分享,看看有多少绅士潜水{:301_998:}

bluerabbit 发表于 2021-3-20 17:50

看着实在是费劲呀,有点易语言的即视感

v000085712 发表于 2021-3-20 20:41

一条孤独的狗 发表于 2021-3-20 16:33
第一次见变量全部命名为中文的,中文和英文切来切去不会很累吗

比纯英文费劲儿多了,但是适合国人新手学习阿,简单易懂

v000085712 发表于 2021-3-20 20:41

bluerabbit 发表于 2021-3-20 17:50
看着实在是费劲呀,有点易语言的即视感

说真的,写的更费劲儿 中 英文来回切换

lbkls 发表于 2021-3-20 20:49

支持一下,看起来还行

冷酷到底 发表于 2021-3-24 19:20

试了一下,没有成功{:1_925:}
页: [1]
查看完整版本: 【原创源码】【python】中文编程python 爬取美女图片