zrl201314 发表于 2018-2-27 21:33

python爬虫之爬取妹子图网站的美女套图

使用的Python版本为3.x,使用的第三方库为:requests, lxml等爬取对象为妹子网,爬取妹子图全网妹子图片,可以选择爬取年份,自动分类保存具体见图和附件

scorpio_cc 发表于 2018-3-28 22:47

本帖最后由 scorpio_cc 于 2018-3-28 23:33 编辑

针对遇到无法创建的问题,只要修改一下代码就可以了
import re
save_path = "./妹子图/" + path_prefix1 + path_prefix2 +(re.sub('[/:*?"<>|]', '', img_name)) + "/"

# 构造图片具体保存路径
img_save_path = save_path + (re.sub('[/:*?"<>|]', '', img_name)) + str(img_index) + ".jpg"
判断一下img_name是否包含不允许符号,如果有,就替换成空。。
:victory:
对于下载一般的话,修改添加代码就可以中间下载了
# 获取图片
def get_image(self, detail_urls_list):
    num = 0
    for url in detail_urls_list:
      if num < (修改为自己想开始的第几个文件):
            num = num +1
            continue
******
      # 构建图片请求地址并下载
      self.get_img_urls(url, detail_html_content, first_img_url, img_name, save_path)
      num = num+1
      print("正在下载"+str(self.year)+"年第"+str(num)+"个文件")

zrl201314 发表于 2018-3-4 20:01

Quincy379 发表于 2018-2-28 19:48
原因很多的,具体问题具体分析!

兄弟,关于您的问题,我不知道你的运行环境怎么样,我在ubantu上用过,调试过,目前没问题,你说的这个:
解决:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))

应该是服务器知道你是爬虫,加headers, 模拟浏览器agent ,爬完一个暂停几秒,
1、head中有一个user-agent每次都换不同的模拟代{过}{滤}理
2、测试最大访问时间短,每秒多少次请求会出现中断,然后sleep(200)毫秒
2、每次请求中断上一次链接,keep-live=false
试试看,
不然就是换IP访问

煦涵 发表于 2018-2-27 21:54

感谢分享,下载试试

OILi 发表于 2018-2-27 21:56

正在学习python,值得学习借鉴

qxyokok 发表于 2018-2-27 22:09

感谢楼主的分享,正在学习,很好的例子

lhy888xh 发表于 2018-2-27 22:39

请问楼主,怎么解决:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))

零下零一度 发表于 2018-2-27 22:56

吾爱xs 发表于 2018-2-27 23:10

没编译成EXE....,我没学这个

liangang 发表于 2018-2-28 10:55

这个遇到文件名有冒号的就会自动停止,保存不了,怎么改成目录有冒号的去掉冒号啊????

yy517 发表于 2018-2-28 13:51

感谢分享,学习了

Quincy379 发表于 2018-2-28 19:48

lhy888xh 发表于 2018-2-27 22:39
请问楼主,怎么解决:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetErro ...

原因很多的,具体问题具体分析!
页: [1] 2 3 4 5 6 7 8
查看完整版本: python爬虫之爬取妹子图网站的美女套图