吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 8156|回复: 46
收起左侧

[Python 转载] 好像你们特别喜欢美女嗷所以做了一个美女写真爬虫

[复制链接]
cdsgg 发表于 2021-3-24 14:17
本帖最后由 cdsgg 于 2021-3-24 14:20 编辑

[Python] 纯文本查看 复制代码
import requests
from bs4 import BeautifulSoup


def getUrl():
    headers = {
        "referer": "https://www.baidu.com/link?url=GgeDs1AzZQg7jAVgRWaaQVemNzUYNHFpN-PiFmUIyUHeaMQeoPb14_8g1oL7GmBggm70mm4e2EkM5F7lmQMUVq&wd=&eqid=fdcd73c000068a5900000004605ac987",
        "upgrade-insecure-requests": "1",
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0"
    }
    url = 'https://www.tupianzj.com/meinv/mm/nkmv/'#其实这里改改 可以爬取更多分类 图片下面有显示

    urllist = []
    H = requests.get(url, headers=headers).text

    soup = BeautifulSoup(H, 'lxml').select('ul.d1.ico3>li>a')

    ullist = [i.get('href') for i in soup]
    for i in ullist:
        if '/meinv/' in i:
            urllist.append(i)
    return urllist


def getpage(imglist):
    for l in imglist:
        headers = {
            "referer": "https://www.baidu.com/link?url=GgeDs1AzZQg7jAVgRWaaQVemNzUYNHFpN-PiFmUIyUHeaMQeoPb14_8g1oL7GmBggm70mm4e2EkM5F7lmQMUVq&wd=&eqid=fdcd73c000068a5900000004605ac987",
            "upgrade-insecure-requests": "1",
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0"
        }
        R = requests.get(f"https://www.tupianzj.com{l}", headers=headers).content.decode('gbk')
        imgsoup = BeautifulSoup(R, 'lxml').select('.pages > ul:nth-child(1) > li:nth-last-child(2)>a')[0].text
        for i in range(1, int(imgsoup) + 1):
            if i == 1:
                imgurl = BeautifulSoup(R, 'lxml').select('#bigpicimg')[0].get('src')
                tittle = BeautifulSoup(R, 'lxml').select('div.list_con:nth-child(3) > h1:nth-child(1)')[0].text
                with open(tittle + '.' + imgurl.split('.')[-1], 'wb') as f:
                    f.write(requests.get(imgurl, headers=headers).content)
                    f.close()
                print(tittle + "           保存成功!")
            else:
                imgurl = 'https://www.tupianzj.com' + l.replace('.html', '') + f'_{i}.html'
                req=requests.get(imgurl,headers=headers).content.decode('gbk')
                u=BeautifulSoup(req, 'lxml').select('#bigpicimg')[0].get('src')
                tittle = BeautifulSoup(req, 'lxml').select('div.list_con:nth-child(3) > h1:nth-child(1)')[0].text
                with open(tittle + '.' + u.split('.')[-1], 'wb') as f:
                    f.write(requests.get(u, headers=headers).content)
                    f.close()
                print(tittle+"           保存成功!")


if __name__ == '__main__':
    listur = getUrl()
    getpage(listur)

免费评分

参与人数 4吾爱币 +4 热心值 +2 收起 理由
yasemi + 1 + 1 用心讨论,共获提升!
DanceLost + 1 谢谢@Thanks!
云近 + 1 + 1 用心讨论,共获提升!
Yadremmus + 1 鼓励转贴优秀软件安全工具和文档!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

谈何易i 发表于 2021-3-24 14:35
没啥意思(提裤子)/doge
天天-不破不立 发表于 2021-4-21 15:48
我把nkmn改成rentiyishyu,为什么就报错
Traceback (most recent call last):
  File "D:/demo/main.py", line 55, in <module>
    getpage(listur)
  File "D:/demo/main.py", line 33, in getpage
    imgsoup = BeautifulSoup(R, 'lxml').select('.pages > ul:nth-child(1) > li:nth-last-child(2)>a')[0].text
IndexError: list index out of range
灿烂的小居 发表于 2021-3-24 14:21
用微笑带过 发表于 2021-3-24 14:33
好家伙,能不能给J儿放天假????
红蓝黄 发表于 2021-3-24 14:36
新手怎么使用?
比基尼杰克 发表于 2021-3-24 14:37
不会用 有没有人能教教我
真是我的 发表于 2021-3-24 14:38
进来没别的意思,单纯学习下代码的写法
郭帅 发表于 2021-3-24 14:41
新人表示喜欢,但是不会用,求出教程
Citrons 发表于 2021-3-24 14:44
一般【提裤】
人称三哥 发表于 2021-3-24 14:46
太有意思了,我冲了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 23:59

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表