吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4608|回复: 61
收起左侧

[Python 原创] Python爬取优美小姐姐

[复制链接]
Greennova 发表于 2023-2-2 19:24
本帖最后由 Greennova 于 2023-2-2 19:27 编辑

1.爬取网站
image.png
image.png
2.前言
①本人作为一名初学者,爬取网页仅做学习
②代码仅供参考,多有不足望指教
③可自行更换爬取始末页以及某页中图片的爬取始页,代码中有注释
④需要在项目路径下自己创建爬取图片保存路径,如代码所示
3.源码如下
[Python] 纯文本查看 复制代码
import requests
from lxml import etree
import time

url = "https://www.umei.cc/meinvtupian/meinvxiezhen/"
for x in range(2,30):#这里自行更改始末页

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36"}

    url2 = f"https://www.umei.cc/meinvtupian/meinvxiezhen/index_{x}.htm"

    response = requests.get(url2,headers = headers)
    response.encoding = 'utf-8'
    #print(response.text)
    tree = etree.HTML(response.text)
    list_href = tree.xpath('//*[@id="infinite_scroll"]/div[30]/div[1]/div/a/@href')#可更该代码中30部分,换成30以下的数字,这里是某页中爬取图片的开始
    #print(list_href)
    #re_list_href = reversed(list_href)

    bottom_url = list_href[0].split('/')[-1]
    url_add = url + bottom_url
    #print(url_add)
    response1 = requests.get(url_add, headers=headers)
    response1.encoding = 'utf-8'
    #print(response1.text)
    list_link = 1
    n=0
    while list_link:

        tree = etree.HTML(response1.text)
        top_name = tree.xpath('//*[@id="photos"]/h1/text()')
        #top_name = name[0].split(',')[0]
        #print(top_name[0])
        list_src = tree.xpath('/html/body/div[3]/div[2]/div[6]/a/img/@src')
        print(list_src[0])
        response_img = requests.get(list_src[0],headers)
        with open('img//'+'meinv//'+top_name[0]+str(n)+'.jpg',mode='wb') as f: #这里要创建该路径
            f.write(response_img.content)
        print("Done!",top_name[0]+str(n))
        list_link = tree.xpath('/html/body/div[3]/div[2]/div[6]/a/@href')

        bottom_url1 = list_link[0].split('/')[-1] #这里是取链接中最后的参数
        url_add1 = url + bottom_url1
        #print(url_add1)
        response1 = requests.get(url_add1, headers=headers)
        response1.encoding = 'utf-8'
        n=n + 1 #这里是图片有组图,加上不同的n命名

    response_img.close()
    response1.close()
    response.close()

4.效果展示
image.png

免费评分

参与人数 6吾爱币 +5 热心值 +6 收起 理由
CoisiniTermpora + 1 谢谢@Thanks!
pig1977 + 1 + 1 鼓励转贴优秀软件安全工具和文档!
yangbin10020 + 1 + 1 谢谢@Thanks!
qinni8513 + 1 + 1 谢谢@Thanks!
wokl168 + 1 + 1 谢谢@Thanks!
A1203 + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| Greennova 发表于 2023-2-5 14:57
Clannad77 发表于 2023-2-5 11:08
请问哪一步是创建图片保存地址?

with open('img//'+'meinv//'+top_name[0]+str(n)+'.jpg',mode='wb') as f: #这里要创建该路径
在项目路径下创建
joemoo 发表于 2023-3-14 10:16
昨天赶在周年庆注册进来了,一直想学学编程,但开了头静不下心继续下去。看看大佬们带来的动力。。。
13729181580 发表于 2023-2-2 19:35
chengxin928001 发表于 2023-2-2 19:39
感谢楼主分享
breezegyln 发表于 2023-2-2 19:45
学到了,感谢楼主
laoda1228 发表于 2023-2-2 20:06
本帖最后由 laoda1228 于 2023-2-3 07:05 编辑

感谢楼主分享, 之前的问题解决了。
你是我的人 发表于 2023-2-2 20:38
感谢大佬无私分享
互联星空 发表于 2023-2-2 20:48
谢谢楼主分享了!!
xiaowei0249 发表于 2023-2-2 21:25
感谢分享!
wuai4444 发表于 2023-2-2 21:32
学到了,感谢楼主
yujitianyakzj 发表于 2023-2-2 22:02
怎么用呀
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 01:37

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表