吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1635|回复: 18
收起左侧

[求助] 单线程初级爬虫求解惑

[复制链接]
wdxddszl 发表于 2020-4-21 01:20
本帖最后由 wdxddszl 于 2020-4-21 10:57 编辑

不晓得为啥没有获取到内容,求助帮忙

不晓得为啥没有获取到内容,求助帮忙
image.png [url=]jpg.gif[/url]
但是我听的网易课堂的老师爬取成功了,我的未成功
不晓得为啥没有获得爬取的信息,请求大神指点迷津

jpg.gif

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

fanvalen 发表于 2020-4-21 01:45
分段print来看吧,先看web下载成功没
然后看你bf规则对没,
我也是小白 还不会用bf
目前用requests+re
还有先不要写称自定义函数 这样不知道那报错不返回错误提示
如果非要自定义,加上try+excpet 返回错误信息
 楼主| wdxddszl 发表于 2020-4-21 02:02
fanvalen 发表于 2020-4-21 01:45
分段print来看吧,先看web下载成功没
然后看你bf规则对没,
我也是小白 还不会用bf

感谢帮助!
我下次会加上防错措施
这个status_code是200,没有问题
bf我认为应该也没错,按照这个css选择器的结果与浏览器中的代码相对应
就是不知道为啥没有爬取信息
johntsemin 发表于 2020-4-21 02:09
本帖最后由 johntsemin 于 2020-4-21 02:14 编辑

if __name__ == "__main__":

soup = BeautifulSoup(html.content, 'lxml' )

另外把content 打出来看看有没问题

网页是js 生成的,要用其他的技术

别的也不太懂了,不精通爬虫
sysgod 发表于 2020-4-21 02:15
都是夜猫子。还不睡
 楼主| wdxddszl 发表于 2020-4-21 02:24
sysgod 发表于 2020-4-21 02:15
都是夜猫子。还不睡

这东西学起来,上瘾
 楼主| wdxddszl 发表于 2020-4-21 02:25
johntsemin 发表于 2020-4-21 02:09
if __name__ == "__main__":

soup = BeautifulSoup(html.content, 'lxml' )

content打出来还是老样子
chen4321 发表于 2020-4-21 07:28
老老实实用douban的API ,get https://api.douban.com/v2/book/:id
开心快乐每一天 发表于 2020-4-21 08:03
可以使用xpath语法试试
Snipaste_2020-04-21_08-01-39.jpg
jidesheng6 发表于 2020-4-21 08:05
ctrl+u看网页源代码 你看看还能找到不 找不到就是用js动态生成的页面了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 17:22

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表