吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4191|回复: 23
收起左侧

[Python 原创] 【python】+基础简单语言爬取妹子图,初学者编写(大佬勿喷)适合小白...

[复制链接]
v000085712 发表于 2020-4-29 16:34
本帖最后由 wushaominkk 于 2020-4-30 15:48 编辑

[Python] 纯文本查看 复制代码
import requests
from lxml import etree
import os
import time

header = {
"user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36",
'referer': 'https://www.mzitu.com/'
}
'''列出来所有分页'''
url = 'https://www.mzitu.com/page/1/'#要爬取的地址
r = requests.get(url,headers =header).text#解析网页并转成文本
html = etree.HTML(r)#把解析好的网页转成xpath可爬取类型
max_page = html.xpath('//*[@class="nav-links"]/a/text()')#下面列表倒数第二个是总页数max_page[-2]
print(max_page[-2])
list_name = (''.join(html.xpath('//*[@class="main-image"]/p/a/img/@alt')))
i = 0#设定起点
while i < int(max_page[-2]):#循环输出列表页码
    i = i + 1#循环一遍url+1
    list_url = 'https://www.mzitu.com/page' + '/' + str(i)#拼接url
    print(list_url)#输出每一页的url
    '''获取分页中的图集url地址'''
    r = requests.get(list_url, headers=header).text  # 解析网页并转成文本
    html = etree.HTML(r)  # 把解析好的网页转成xpath可爬取类型
    list_page_url = html.xpath('//*[@id="pins"]/li/a/@href')#获取列表中的图集url
    for page_url in list_page_url:
        print(page_url)#输出图集url
        '''开始获取分页url'''
        r = requests.get(page_url, headers=header).text  # 解析网页并转成文本
        html = etree.HTML(r)  # 把解析好的网页转成xpath可爬取类型
        max_page = html.xpath('//*[@class="pagenavi"]/a/span/text()')  # 下面列表倒数第二个是总页数max_page[-2]
        list_name = (''.join(html.xpath('//*[@class="main-image"]/p/a/img/@alt')))
        if not os.path.exists(list_name):
            os.mkdir(list_name)
        i = 0  # 设定起点
        while i < int(max_page[-2]):  # 循环输出图集页码
            i = i + 1  # 循环一遍url+1
            list_url = page_url + '/' + str(i)  # 拼接url
            print(list_url)#输出url
            time.sleep(1)  # 每爬取一页停留一秒,给网站一个休息时间
            '''开始下载图片'''
            r = requests.get(list_url, headers=header).text  # 解析网页并转成文本
            html = etree.HTML(r)  # 把解析好的网页转成xpath可爬取类型
            pic_name = html.xpath('/html/body/div[2]/div[1]/h2/text()')  # 图片标题
            pic_url = html.xpath('/html/body/div[2]/div[1]/div[3]/p/a/img/@src')  # 图片下载地址

            for pic_name in pic_name:  # 循环获取图片名字
                for pic_url in pic_url:  # 获取要下载图片的地址
                    with open(list_name + '/' + pic_name + '.jpg', 'wb') as pic:
                        pic_url = requests.get(pic_url, headers=header).content
                        pic.write(pic_url)
                        print(pic_name)#输出图片名称

免费评分

参与人数 4吾爱币 +7 热心值 +3 收起 理由
苏紫方璇 + 3 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
甜小白 + 1 用心讨论,共获提升!
hxb740544460 + 1 + 1 感谢分享
王星星 + 2 + 1 热心回复!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

第一品霄 发表于 2020-4-29 16:40
学习一下了
 楼主| v000085712 发表于 2020-5-4 08:25
indian806 发表于 2020-4-29 17:18
总是找借口,导致现在都没去学

我也是断断续续的学习,偶然间工作轻松了点好好的学习了一下.现在也就会爬取一些简单不是很富在的网站,大家一起加油学习
1676TKMS 发表于 2020-4-29 16:43
BBoy蓝牙 发表于 2020-4-29 16:48
学习了,感谢谢分享

头像被屏蔽
王星星 发表于 2020-4-29 17:00
提示: 作者被禁止或删除 内容自动屏蔽
chishingchan 发表于 2020-4-29 17:13
这个语言好像很受欢迎!不知道有没有论坛,想去学习一下。
酋长萨尔A 发表于 2020-4-29 17:17
芜湖起飞
cwinner 发表于 2020-4-29 17:18
学习学习。感谢谢分享!
indian806 发表于 2020-4-29 17:18
总是找借口,导致现在都没去学
gtbyang 发表于 2020-4-29 17:25
楼主坚持住,不要像我这样学了几天就开小差了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-23 16:16

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表