吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 12519|回复: 83
收起左侧

[Python 转载] 爬取美女图片(修改版)(修改版) 2021-06-09

  [复制链接]
panpanpan 发表于 2021-3-28 20:08
本帖最后由 panpanpan 于 2021-8-15 15:34 编辑

2021-06-09 更新,拳新版本
原帖子地址:https://www.52pojie.cn/thread-1394757-1-1.html
@culprit
与修改版不同,该版本将所有文章链接都取到本地,然后枚举下载,与修改版各有好处,个人觉得好用因此分享给大家
唯美图库的图片质量确实很高,画质拿来当壁纸都没有问题的

微信图片_20210328200919.png
微信图片_20210328200309.png
2021040311055912 - 副本_看图王.jpg


[Python] 纯文本查看 复制代码
from bs4 import BeautifulSoup
import requests,re,os
 
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
        'referer' : 'https://www.vmgirls.com/'
    }
def loadDatas(datas):
    for data in datas:
        url = "https://www.vmgirls.com/" + data
        print(url)
        print('-----------------------------------------------')
        Down_Image(url)
        print('-----------------------------------------------')
 
def Down_Image(url):
    response = requests.get(url, headers=headers).text
    soup = BeautifulSoup(response, 'html.parser')
 
    image_url = soup.find_all('img')
    for data in  image_url:
        image_type = data.get('src').split('.')[-1]
        if image_type == 'jpg' or image_type == 'jpeg' or image_type == 'png':
            url_data = data.get('src')
            # print(url_data)
 
            dir_name = soup.find(class_='post-title h1').string
            if not os.path.exists(dir_name):
                os.mkdir(dir_name)
                # print(dir_name)

            # 解决报错问题
            str_url_data = str(url_data)
            if not re.match(r'^http', str_url_data):
                str_url_data = "https:" + str_url_data

            image = requests.get(str_url_data, headers=headers).content

            file_name = url_data.split('/')[-1]
            # print(file_name)
            with open(dir_name + '/' + file_name, 'wb') as f:
                print('正在写入----->' + dir_name + '/' + file_name)
                f.write(image)
 
 
if __name__ == '__main__':
    print(' ---------------------------------------------------------------------')
    print('|                                                                     |')
    print('|               Author:culprit --- 52pojie                            |')
    print('|               Modified by panpanpan(1277936431) --- 52pojie         |')
    print('|                                                                     |')
    print(' ---------------------------------------------------------------------')
    with open(r'datas.txt') as f:
        content = f.read()
    datas = content.split('\n')
    input('点击开始!')    loadDatas(datas)


*** 有需则取,无需者请勿恶意占用站点资源! ***

截至6月9号新增的链接,加入或者覆盖再运行就可以了
[Python] 纯文本查看 复制代码
16615.html
16490.html
16500.html
16483.html
16470.html
16442.html
16431.html
16137.html
16398.html
16604.html
16454.html
16585.html
16377.html
16364.html
16356.html
16345.html
16560.html
16331.html
16544.html
16316.html
16305.html
16292.html
16284.html
16388.html
16264.html
16255.html
16238.html
16224.html
16216.html
16209.html
16196.html
16181.html
16115.html
16144.html
16121.html
16101.html
16092.html
16076.html
16065.html
16053.html
16533.html
16015.html
16008.html
16001.html
15990.html
15976.html
15969.html
15959.html
15952.html
15945.html
16274.html
15938.html
15931.html
15984.html
15925.html
15918.html
15911.html


2021-06-09:
这段时间都没时间上论坛,发现代码运行爬下来的都是空白字符,然后重新优化了下代码,现在基本上没有问题了。

觉得好用给个评分支持,我寻思怎么收藏比评分还多


数据+代码链接:链接:https://pan.baidu.com/s/1yGCpMFIi1yDuVs8_7bjgbQ
提取码:52pj

微信截图_20210328212155.png

免费评分

参与人数 12吾爱币 +12 热心值 +11 收起 理由
reddyn + 1 + 1 热心回复!
Satanlin + 1 + 1 LSP的动力
tygzgbxm + 1 + 1 可以给一个成品吗
小米粉 + 2 + 1 我很赞同!我最近在研究https://www.xrmn.cc这个的爬虫
ayuterry + 1 + 1 用心讨论,共获提升!
氵怪 + 1 用心讨论,共获提升!
辣狼 + 1 谢谢@Thanks!
qq296893074 + 1 + 1 热心回复!
qunamr88 + 1 + 1 我很赞同!
水蜜桃好甜 + 1 + 1 谢谢@Thanks!
Varg + 1 + 1 热心回复!
wu所不能 + 1 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| panpanpan 发表于 2021-4-1 14:18
underway1024 发表于 2021-3-30 09:15
向楼主请教一个问题,一些简单的网站自己用py就可以爬取,但是后面发现,有些网站使用了lazyload技术,所以 ...

js_script 可以解决,window.scrollTo(document.body.scrollWidth, document.body.scrollHeight);
halfone 发表于 2021-5-17 15:49
本帖最后由 halfone 于 2021-5-17 16:10 编辑
Danmo_ 发表于 2021-5-17 12:07
为啥爬出来的图片全部已损坏?全是144kb的

貌似网站已经启用反爬了...
加了一个"referer": "https://www.vmgirls.com/"可以了
危言危行 发表于 2021-3-28 20:14
壹百八一杯 发表于 2021-3-28 20:17
感谢分享,来学习一下
 楼主| panpanpan 发表于 2021-3-28 20:21

默认都是原图下载,难道你要骑兵类型的吗
Rayless 发表于 2021-3-28 20:22
这。。。谢谢
jodiedavid 发表于 2021-3-28 20:36
啊这,果然lsp才是第一生产力么
红蓝黄 发表于 2021-3-28 20:46
这个鬼东西怎么使用?

免费评分

参与人数 1热心值 +1 收起 理由
pjbl + 1 这个要装PY还是挺费劲的 没有成品的话用八爪鱼就可以抓完全站,

查看全部评分

Varg 发表于 2021-3-28 20:47
厉害了,谢谢
2321490 发表于 2021-3-28 20:48
这个厉害,感谢分享!~
guyuezero 发表于 2021-3-28 20:54
看到这个帖子LSP两眼放光芒
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 06:58

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表