吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4495|回复: 46
收起左侧

[Python 转载] 第一次爬虫成功了

[复制链接]
双眼皮的微笑 发表于 2022-4-25 16:24
本帖最后由 双眼皮的微笑 于 2022-4-25 16:40 编辑

@txq0211 根据这位大佬的帖子→https://www.52pojie.cn/thread-1615729-1-1.html 成功让我一个新手爬虫成功,虽然只是简单的爬虫,但是给我带来了成功的快感{:301_997:} ,让我更加积极的去学习Python。(我刚把Python基础学完,不经意间刷到了这篇帖子,所以就勾起我的兴趣)

[Python] 纯文本查看 复制代码
# coding:utf-8

import re
import requests

# 爬虫试验
url = 'http://bbs.tianya.cn/post-no04-2817267-1.shtml'
resp = requests.get(url).text
# 这里用的正则表达式的非贪婪匹配  话说非贪婪我没搞懂啥意思
maplists = re.findall('original="(.+?)"', resp)

def start():
    i = 0
    for pic_url in maplists:
        pic = requests.get(pic_url)
        i += 1
        path = '%d.jpg' % i
        with open('C:/Users/Administrator/Desktop/' + path, 'wb') as f:
            f.write(pic.content)
            print('已经完成输出第%d张图片' % i)

if __name__ == '__main__':
    start()



这里有个问题就是有些网站图片检索出来的格式是<img src='地址'>这种又怎么爬取呢? 如果直接匹配src,匹配出来是一个空列表,求解?

如果有违规,请版主删帖,谢谢。

免费评分

参与人数 5吾爱币 +5 热心值 +5 收起 理由
zhangzsf + 1 + 1 谢谢@Thanks!
chensu686 + 1 + 1 谢谢@Thanks!
QZHWL + 1 + 1 用心讨论,共获提升!
hensel + 1 + 1 鼓励转贴优秀软件安全工具和文档!
luozi1653 + 1 + 1 热心回复!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

萌新与小白 发表于 2022-4-25 20:23
src没有数据,是因为图片是懒加载的。打开网页后打开DevTools,在DevTools中多往后翻,但不要滚动网页本身的滚动条,然后在DevTools中找到网页中当前视区后面的图片的img标签,你会发现它的src不是你想要的,真正的图片链接在其他属性中,不同的网站用的属性名不同,需要具体分析。然后再滚动网页,你会发现src又变成你需要的链接了,因为图片被滚动到你的视区了,这样子对于网站来说,减轻压力,用户浏览多少就加载多少,用户体验好;若是一下全加载完所有图片,服务器压力大,用户体验也差,用户会觉得要等几秒才能看到内容。
8.jpg
平淡最真 发表于 2022-4-25 16:31
.+?   这个问号就是非贪婪,意思就是尽量少匹配点,如果去掉问号就是贪婪,那就匹配不到url了
lhlking 发表于 2022-4-25 16:35
就像通配符的意思是吧,*号?号,现在搞成贪婪这种新名词了
 楼主| 双眼皮的微笑 发表于 2022-4-25 16:38
平淡最真 发表于 2022-4-25 16:31
.+?   这个问号就是非贪婪,意思就是尽量少匹配点,如果去掉问号就是贪婪,那就匹配不到url了

奥 谢谢。
淼先森 发表于 2022-4-25 16:39
不错不错,我也要学起来
yn9 发表于 2022-4-25 16:52
xpath爬取方便点
mq0192 发表于 2022-4-25 16:53
加油,我是三天打鱼两天晒网,到头来一事无成。向你学习。
hs248613 发表于 2022-4-25 16:58
可喜可贺!可喜可贺!
majunxdwm 发表于 2022-4-25 17:10
想向你学习,我也是三天打鱼二天晒网,支持你。
hackerbob 发表于 2022-4-25 17:13
哈哈,加油
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 07:01

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表