单线程初级爬虫求解惑

wdxddszl 发表于 2020-4-21 01:20

本帖最后由 wdxddszl 于 2020-4-21 10:57 编辑

jpg.gif
但是我听的网易课堂的老师爬取成功了，我的未成功
不晓得为啥没有获得爬取的信息，请求大神指点迷津{:1_893:}

fanvalen 发表于 2020-4-21 01:45

分段print来看吧，先看web下载成功没
然后看你bf规则对没，
我也是小白还不会用bf
目前用requests+re
还有先不要写称自定义函数这样不知道那报错不返回错误提示
如果非要自定义，加上try+excpet 返回错误信息

wdxddszl 发表于 2020-4-21 02:02

fanvalen 发表于 2020-4-21 01:45
分段print来看吧，先看web下载成功没
然后看你bf规则对没，
我也是小白还不会用bf

感谢帮助！
我下次会加上防错措施
这个status_code是200，没有问题
bf我认为应该也没错，按照这个css选择器的结果与浏览器中的代码相对应{:1_907:}
就是不知道为啥没有爬取信息

johntsemin 发表于 2020-4-21 02:09

本帖最后由 johntsemin 于 2020-4-21 02:14 编辑

if __name__ == "__main__":

soup = BeautifulSoup(html.content, 'lxml' )

另外把content 打出来看看有没问题

网页是js 生成的，要用其他的技术

别的也不太懂了，不精通爬虫

sysgod 发表于 2020-4-21 02:15

都是夜猫子{:301_1002:}。还不睡{:301_995:}

wdxddszl 发表于 2020-4-21 02:24

sysgod 发表于 2020-4-21 02:15
都是夜猫子。还不睡

这东西学起来，上瘾{:1_918:}

wdxddszl 发表于 2020-4-21 02:25

johntsemin 发表于 2020-4-21 02:09
if __name__ == "__main__":

soup = BeautifulSoup(html.content, 'lxml' )

content打出来还是老样子{:1_908:}

chen4321 发表于 2020-4-21 07:28

老老实实用douban的API ，get https://api.douban.com/v2/book/:id

开心快乐每一天 发表于 2020-4-21 08:03

可以使用xpath语法试试

jidesheng6 发表于 2020-4-21 08:05

ctrl＋u看网页源代码你看看还能找到不找不到就是用js动态生成的页面了

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

单线程初级爬虫求解惑