吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 29221|回复: 75
收起左侧

[Python 转载] python爬虫之爬取妹子图网站的美女套图

  [复制链接]
zrl201314 发表于 2018-2-27 21:33
使用的Python版本为3.x,使用的第三方库为:requests, lxml等爬取对象为妹子网,爬取妹子图全网妹子图片,可以选择爬取年份,自动分类保存具体见图和附件
04.png
03.png
02.png
01.png
00.png

爬取妹子图.zip

1.9 KB, 下载次数: 1094, 下载积分: 吾爱币 -1 CB

免费评分

参与人数 17吾爱币 +16 热心值 +16 收起 理由
青-枫 + 1 + 1 我很赞同!
darkfilth + 1 + 1 谢谢@Thanks!
邱憨包 + 1 谢谢@Thanks!
13673353710 + 1 + 1 谢谢@Thanks!
playerpj + 1 + 1 用心讨论,共获提升!
muziis + 1 + 1 我很赞同!
水泥工艺学 + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
forinv + 1 + 1 激起了学习的热情,
s3nake + 1 + 1 我很赞同!
cc78947 + 1 + 1 热心回复!
nive + 1 谢谢@Thanks!
Saki + 1 + 1 我很赞同!
狼魂521 + 1 + 1 热心回复!
lwl2000119 + 1 + 1 谢谢@Thanks!
飞翔的猪头 + 1 + 1 热心回复!
qxyokok + 1 + 1 用心讨论,共获提升!
煦涵 + 1 + 1 用心讨论,共获提升!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

scorpio_cc 发表于 2018-3-28 22:47
本帖最后由 scorpio_cc 于 2018-3-28 23:33 编辑

针对遇到无法创建的问题,只要修改一下代码就可以了
import re
save_path = "./妹子图/" + path_prefix1 + path_prefix2 +(re.sub('[/:*?"<>|]', '', img_name)) + "/"

# 构造图片具体保存路径
img_save_path = save_path + (re.sub('[/:*?"<>|]', '', img_name)) + str(img_index) + ".jpg"
判断一下img_name是否包含不允许符号,如果有,就替换成空。。

对于下载一般的话,修改添加代码就可以中间下载了
# 获取图片
def get_image(self, detail_urls_list):
    num = 0
    for url in detail_urls_list:
        if num <
(修改为自己想开始的第几个文件):
            num = num +
1
            continue
******
        
# 构建图片请求地址并下载
        self.get_img_urls(url, detail_html_content, first_img_url, img_name, save_path)
        num = num+
1
        print("正在下载"+str(self.year)+"年第"+str(num)+"个文件")
 楼主| zrl201314 发表于 2018-3-4 20:01
Quincy379 发表于 2018-2-28 19:48
原因很多的,具体问题具体分析!

兄弟,关于您的问题,我不知道你的运行环境怎么样,我在ubantu上用过,调试过,目前没问题,你说的这个:
解决:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))

应该是服务器知道你是爬虫,加headers, 模拟浏览器agent ,爬完一个暂停几秒,
1、head中有一个user-agent每次都换不同的模拟代{过}{滤}理
2、测试最大访问时间短,每秒多少次请求会出现中断,然后sleep(200)毫秒
2、每次请求中断上一次链接,keep-live=false
试试看,
不然就是换IP访问
煦涵 发表于 2018-2-27 21:54
OILi 发表于 2018-2-27 21:56
正在学习python,值得学习借鉴
qxyokok 发表于 2018-2-27 22:09
感谢楼主的分享,正在学习,很好的例子
lhy888xh 发表于 2018-2-27 22:39
请问楼主,怎么解决:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))
头像被屏蔽
零下零一度 发表于 2018-2-27 22:56
提示: 作者被禁止或删除 内容自动屏蔽
吾爱xs 发表于 2018-2-27 23:10
没编译成EXE....,我没学这个
liangang 发表于 2018-2-28 10:55
这个遇到文件名有冒号的就会自动停止,保存不了,怎么改成目录有冒号的去掉冒号啊????
yy517 发表于 2018-2-28 13:51
感谢分享,学习了
Quincy379 发表于 2018-2-28 19:48
lhy888xh 发表于 2018-2-27 22:39
请问楼主,怎么解决:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetErro ...

原因很多的,具体问题具体分析!
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-16 15:48

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表