爬取中关村论坛摄影模的，带源文件

liqi 发表于 2019-7-16 20:42

本帖最后由 wushaominkk 于 2019-7-17 08:41 编辑

合着上篇帖子的思路：https://www.52pojie.cn/thread-991110-1-1.html
我继续编写了一个爬中关村摄影的爬虫，只需要修改最上面的rang（）里面的参数就可以修改爬取多少页，里面都是小姐姐哦部分不是
思路都是一样的，我就不发了，也挺晚的了
注释部分是代{过}{滤}理服务器，我找不到nb的代{过}{滤}理服务器只需要修改http" :"183.172.192.248:1080就可以修改代{过}{滤}理的ip了
import re
import urllib.request
import time
# proxy = urllib.request.ProxyHandler({"http" :"183.172.192.248:1080"})
# opener = urllib.request.build_opener(proxy ,urllib.request.HTTPHandler)
# urllib.request.install_opener(opener)
count = 0
try:
for c in range(0,10):
   new_url = "http://bbs.zol.com.cn/dcbbs/d16_good_p" + str(c) + ".html#c"
   data_new = urllib.request.urlopen(new_url).read().decode("utf-8","ignore")
   tj_new = 'data-url="/dcbbs/(.*?).html">'
   p1 = re.compile(tj_new).findall(str(data_new))

   for sen in range(len(p1)):
         url = "http://bbs.zol.com.cn/dcbbs/" + str(p1) + ".html"
         data = urllib.request.urlopen(url).read().decode("GBK","ignore")
         tj = 'data-original="https://bbs-fd.zol-img.com.cn/t_s(.*?).jpg'
         p = re.compile(tj).findall(data)
         for i in range(len(p)):
            url = "https://bbs-fd.zol-img.com.cn/t_s" + str(p) + ".jpg"
            file = "F:/bing/摄影论坛/" + str(p[-8:-1]) + ".jpg"
            count +=1
            if count%5 ==0:
               time.sleep(0.65)
            print("正在保存第%s张图片" % count)
            urllib.request.urlretrieve(url,filename=file)
except urllib.error.URLError as e:
if hasattr(e, 'code'):
   print(e.code)
if hasattr(e, "reason"):
   print(e.reason)

这是爬取的照片，有效期1天链接：https://pan.baidu.com/s/1oW0k2NCqSxWM4cJRpKdFAg 提取码：bnl5 复制这段内容后打开百度网盘手机App，操作更方便哦

liqi 发表于 2019-7-17 08:09

ghoob321 发表于 2019-7-17 07:47
怎么准确定位的

这个是文件名，为了防止他重复，p里面是表达式过滤出来的网址，是一大堆英文，所以我就用索引来捕获，这个索引是我乱打的，就是为了避免重复

ghoob321 发表于 2019-7-17 08:15

liqi 发表于 2019-7-17 08:09
这个是文件名，为了防止他重复，p里面是表达式过滤出来的网址，是一大堆英文，所以我就用索引来捕获，这 ...

谢谢楼主

Keeeec 发表于 2019-7-16 20:53

666666666666

hanjiancheng 发表于 2019-7-16 21:02

看上去挺牛B:lol

SuperF 发表于 2019-7-16 22:10

我是来看看有没小哥哥的，哈哈，其实是小姐姐。

hill_king 发表于 2019-7-16 22:31

不错，学习下

大鱼爱吃猫 发表于 2019-7-16 22:47

不管小姐姐还是大姐姐统统收藏一波，感谢楼主给力分享点赞收藏啦

初生如梦 发表于 2019-7-16 23:16

爬虫好想学啊

大鱼爱吃猫 发表于 2019-7-16 23:17

楼主你敢不敢吧你爬取的照片弄几个包分享一下子，，下载的时候突然出现错误提取不了啦。。当然希望我们的友谊不要说翻就翻。。。

木浪发表于 2019-7-16 23:39

有没有爬取同志论坛的呢{:301_1001:}

chen4321 发表于 2019-7-17 07:29

有些人看着看着就去了浏览器:lol

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

爬取中关村论坛摄影模的，带源文件