python爬虫之爬取妹子图网站的美女套图
使用的Python版本为3.x,使用的第三方库为:requests, lxml等爬取对象为妹子网,爬取妹子图全网妹子图片,可以选择爬取年份,自动分类保存具体见图和附件 本帖最后由 scorpio_cc 于 2018-3-28 23:33 编辑针对遇到无法创建的问题,只要修改一下代码就可以了
import re
save_path = "./妹子图/" + path_prefix1 + path_prefix2 +(re.sub('[/:*?"<>|]', '', img_name)) + "/"
# 构造图片具体保存路径
img_save_path = save_path + (re.sub('[/:*?"<>|]', '', img_name)) + str(img_index) + ".jpg"
判断一下img_name是否包含不允许符号,如果有,就替换成空。。
:victory:
对于下载一般的话,修改添加代码就可以中间下载了
# 获取图片
def get_image(self, detail_urls_list):
num = 0
for url in detail_urls_list:
if num < (修改为自己想开始的第几个文件):
num = num +1
continue
******
# 构建图片请求地址并下载
self.get_img_urls(url, detail_html_content, first_img_url, img_name, save_path)
num = num+1
print("正在下载"+str(self.year)+"年第"+str(num)+"个文件") Quincy379 发表于 2018-2-28 19:48
原因很多的,具体问题具体分析!
兄弟,关于您的问题,我不知道你的运行环境怎么样,我在ubantu上用过,调试过,目前没问题,你说的这个:
解决:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))
应该是服务器知道你是爬虫,加headers, 模拟浏览器agent ,爬完一个暂停几秒,
1、head中有一个user-agent每次都换不同的模拟代{过}{滤}理
2、测试最大访问时间短,每秒多少次请求会出现中断,然后sleep(200)毫秒
2、每次请求中断上一次链接,keep-live=false
试试看,
不然就是换IP访问 感谢分享,下载试试 正在学习python,值得学习借鉴 感谢楼主的分享,正在学习,很好的例子 请问楼主,怎么解决:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None)) 没编译成EXE....,我没学这个 这个遇到文件名有冒号的就会自动停止,保存不了,怎么改成目录有冒号的去掉冒号啊???? 感谢分享,学习了 lhy888xh 发表于 2018-2-27 22:39
请问楼主,怎么解决:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetErro ...
原因很多的,具体问题具体分析!