python爬虫之爬取妹子图网站的美女套图

zrl201314 发表于 2018-2-27 21:33

使用的Python版本为3.x，使用的第三方库为：requests, lxml等爬取对象为妹子网,爬取妹子图全网妹子图片，可以选择爬取年份，自动分类保存具体见图和附件

scorpio_cc 发表于 2018-3-28 22:47

本帖最后由 scorpio_cc 于 2018-3-28 23:33 编辑

针对遇到无法创建的问题，只要修改一下代码就可以了
import re
save_path = "./妹子图/" + path_prefix1 + path_prefix2 +(re.sub('[/:*?"<>|]', '', img_name)) + "/"

# 构造图片具体保存路径
img_save_path = save_path + (re.sub('[/:*?"<>|]', '', img_name)) + str(img_index) + ".jpg"
判断一下img_name是否包含不允许符号，如果有，就替换成空。。
:victory:
对于下载一般的话，修改添加代码就可以中间下载了
# 获取图片
def get_image(self, detail_urls_list):
num = 0
for url in detail_urls_list:
   if num < （修改为自己想开始的第几个文件）:
         num = num +1
         continue
******
   # 构建图片请求地址并下载
   self.get_img_urls(url, detail_html_content, first_img_url, img_name, save_path)
   num = num+1
   print("正在下载"+str(self.year)+"年第"+str(num)+"个文件")

zrl201314 发表于 2018-3-4 20:01

Quincy379 发表于 2018-2-28 19:48
原因很多的，具体问题具体分析！

兄弟，关于您的问题，我不知道你的运行环境怎么样，我在ubantu上用过，调试过，目前没问题，你说的这个：
解决：requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))

应该是服务器知道你是爬虫，加headers, 模拟浏览器agent ，爬完一个暂停几秒，
1、head中有一个user-agent每次都换不同的模拟代{过}{滤}理
2、测试最大访问时间短，每秒多少次请求会出现中断，然后sleep（200）毫秒
2、每次请求中断上一次链接，keep-live=false
试试看，
不然就是换IP访问

煦涵发表于 2018-2-27 21:54

感谢分享，下载试试

OILi 发表于 2018-2-27 21:56

正在学习python，值得学习借鉴

qxyokok 发表于 2018-2-27 22:09

感谢楼主的分享，正在学习，很好的例子

lhy888xh 发表于 2018-2-27 22:39

请问楼主，怎么解决：requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))

零下零一度 发表于 2018-2-27 22:56

吾爱xs 发表于 2018-2-27 23:10

没编译成EXE....，我没学这个

liangang 发表于 2018-2-28 10:55

这个遇到文件名有冒号的就会自动停止，保存不了，怎么改成目录有冒号的去掉冒号啊？？？？

yy517 发表于 2018-2-28 13:51

感谢分享，学习了

Quincy379 发表于 2018-2-28 19:48

lhy888xh 发表于 2018-2-27 22:39
请问楼主，怎么解决：requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetErro ...

原因很多的，具体问题具体分析！

页: [1] 2 3 4 5 6 7 8

吾爱破解 - 52pojie.cn's Archiver

python爬虫之爬取妹子图网站的美女套图