单线程初级爬虫求解惑

wdxddszl · 发表于 2020-4-21 01:20

本帖最后由 wdxddszl 于 2020-4-21 10:57 编辑

不晓得为啥没有获取到内容，求助帮忙

[url=]jpg.gif[/url]
但是我听的网易课堂的老师爬取成功了，我的未成功
不晓得为啥没有获得爬取的信息，请求大神指点迷津

fanvalen · 发表于 2020-4-21 01:45

分段print来看吧，先看web下载成功没
然后看你bf规则对没，
我也是小白还不会用bf
目前用requests+re
还有先不要写称自定义函数这样不知道那报错不返回错误提示
如果非要自定义，加上try+excpet 返回错误信息

wdxddszl · 发表于 2020-4-21 02:02

fanvalen 发表于 2020-4-21 01:45
分段print来看吧，先看web下载成功没
然后看你bf规则对没，
我也是小白还不会用bf

感谢帮助！
我下次会加上防错措施
这个status_code是200，没有问题
bf我认为应该也没错，按照这个css选择器的结果与浏览器中的代码相对应

就是不知道为啥没有爬取信息

johntsemin · 发表于 2020-4-21 02:09

本帖最后由 johntsemin 于 2020-4-21 02:14 编辑

if __name__ == "__main__":

soup = BeautifulSoup(html.content, 'lxml' )

另外把content 打出来看看有没问题

网页是js 生成的，要用其他的技术

别的也不太懂了，不精通爬虫

sysgod · 发表于 2020-4-21 02:15

都是夜猫子

。还不睡

wdxddszl · 发表于 2020-4-21 02:24

sysgod 发表于 2020-4-21 02:15
都是夜猫子。还不睡

这东西学起来，上瘾

wdxddszl · 发表于 2020-4-21 02:25

johntsemin 发表于 2020-4-21 02:09
if __name__ == "__main__":

soup = BeautifulSoup(html.content, 'lxml' )

content打出来还是老样子

chen4321 · 发表于 2020-4-21 07:28

老老实实用douban的API ，get https://api.douban.com/v2/book/:id

开心快乐每一天 · 发表于 2020-4-21 08:03

可以使用xpath语法试试

jidesheng6 · 发表于 2020-4-21 08:05

ctrl＋u看网页源代码你看看还能找到不找不到就是用js动态生成的页面了

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 单线程初级爬虫求解惑