吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3317|回复: 14
收起左侧

[Python 转载] 爬取中关村论坛摄影模的,带源文件

[复制链接]
liqi 发表于 2019-7-16 20:42
本帖最后由 wushaominkk 于 2019-7-17 08:41 编辑

合着上篇帖子的思路:https://www.52pojie.cn/thread-991110-1-1.html
我继续编写了一个爬中关村摄影的爬虫,只需要修改最上面的rang()里面的参数就可以修改爬取多少页,里面都是小姐姐哦部分不是
思路都是一样的,我就不发了,也挺晚的了
注释部分是代{过}{滤}理服务器,我找不到nb的代{过}{滤}理服务器只需要修改http" :"183.172.192.248:1080就可以修改代{过}{滤}理的ip了
[Python] 纯文本查看 复制代码
import re
import urllib.request
import time
# proxy = urllib.request.ProxyHandler({"http" :"183.172.192.248:1080"})
# opener = urllib.request.build_opener(proxy ,urllib.request.HTTPHandler)
# urllib.request.install_opener(opener)
count = 0
try:
    for c in range(0,10):
        new_url = "http://bbs.zol.com.cn/dcbbs/d16_good_p" + str(c) + ".html#c"
        data_new = urllib.request.urlopen(new_url).read().decode("utf-8","ignore")
        tj_new = 'data-url="/dcbbs/(.*?).html">'
        p1 = re.compile(tj_new).findall(str(data_new))

        for sen in range(len(p1)):
            url = "http://bbs.zol.com.cn/dcbbs/" + str(p1[sen]) + ".html"
            data = urllib.request.urlopen(url).read().decode("GBK","ignore")
            tj = 'data-original="https://bbs-fd.zol-img.com.cn/t_s(.*?).jpg'
            p = re.compile(tj).findall(data)
            for i in range(len(p)):
                url = "https://bbs-fd.zol-img.com.cn/t_s" + str(p[i]) + ".jpg"
                file = "F:/bing/摄影论坛/" + str(p[i][-8:-1]) + ".jpg"
                count +=1
                if count%5 ==0:
                    time.sleep(0.65)
                print("正在保存第%s张图片" % count)
                urllib.request.urlretrieve(url,filename=file)
except urllib.error.URLError as e:
    if hasattr(e, 'code'):
        print(e.code)
    if hasattr(e, "reason"):
        print(e.reason)


这是爬取的照片,有效期1天链接:https://pan.baidu.com/s/1oW0k2NCqSxWM4cJRpKdFAg 提取码:bnl5 复制这段内容后打开百度网盘手机App,操作更方便哦

免费评分

参与人数 4吾爱币 +4 热心值 +4 收起 理由
ghoob321 + 1 + 1 热心回复!
waltzofjack + 2 + 1 我很赞同!
大鱼爱吃猫 + 1 + 1 谢谢@Thanks!
SuperF + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| liqi 发表于 2019-7-17 08:09

这个是文件名,为了防止他重复,p里面是表达式过滤出来的网址,是一大堆英文,所以我就用索引来捕获,这个索引是我乱打的,就是为了避免重复
ghoob321 发表于 2019-7-17 08:15
liqi 发表于 2019-7-17 08:09
这个是文件名,为了防止他重复,p里面是表达式过滤出来的网址,是一大堆英文,所以我就用索引来捕获,这 ...

谢谢楼主
Keeeec 发表于 2019-7-16 20:53
hanjiancheng 发表于 2019-7-16 21:02
看上去挺牛B
SuperF 发表于 2019-7-16 22:10
我是来看看有没小哥哥的,哈哈,其实是小姐姐。
hill_king 发表于 2019-7-16 22:31
不错,学习 下
大鱼爱吃猫 发表于 2019-7-16 22:47
不管小姐姐还是大姐姐统统收藏一波,感谢楼主给力分享点赞收藏啦
初生如梦 发表于 2019-7-16 23:16
爬虫  好想学啊
大鱼爱吃猫 发表于 2019-7-16 23:17
楼主你敢不敢吧你爬取的照片弄几个包分享一下子,,下载的时候突然出现错误提取不了啦。。当然希望我们的友谊不要说翻就翻。。。
木浪 发表于 2019-7-16 23:39
有没有爬取同志论坛的呢

免费评分

参与人数 1吾爱币 +1 收起 理由
茫然唔错 + 1 口味挺独特啊

查看全部评分

chen4321 发表于 2019-7-17 07:29
有些人看着看着就去了浏览器
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-16 11:43

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表