wdxddszl 发表于 2020-4-21 01:20

单线程初级爬虫求解惑

本帖最后由 wdxddszl 于 2020-4-21 10:57 编辑

jpg.gif
但是我听的网易课堂的老师爬取成功了,我的未成功
不晓得为啥没有获得爬取的信息,请求大神指点迷津{:1_893:}

fanvalen 发表于 2020-4-21 01:45

分段print来看吧,先看web下载成功没
然后看你bf规则对没,
我也是小白 还不会用bf
目前用requests+re
还有先不要写称自定义函数 这样不知道那报错不返回错误提示
如果非要自定义,加上try+excpet 返回错误信息

wdxddszl 发表于 2020-4-21 02:02

fanvalen 发表于 2020-4-21 01:45
分段print来看吧,先看web下载成功没
然后看你bf规则对没,
我也是小白 还不会用bf


感谢帮助!
我下次会加上防错措施
这个status_code是200,没有问题
bf我认为应该也没错,按照这个css选择器的结果与浏览器中的代码相对应{:1_907:}
就是不知道为啥没有爬取信息

johntsemin 发表于 2020-4-21 02:09

本帖最后由 johntsemin 于 2020-4-21 02:14 编辑

if __name__ == "__main__":

soup = BeautifulSoup(html.content, 'lxml' )

另外把content 打出来看看有没问题

网页是js 生成的,要用其他的技术

别的也不太懂了,不精通爬虫

sysgod 发表于 2020-4-21 02:15

都是夜猫子{:301_1002:}。还不睡{:301_995:}

wdxddszl 发表于 2020-4-21 02:24

sysgod 发表于 2020-4-21 02:15
都是夜猫子。还不睡

这东西学起来,上瘾{:1_918:}

wdxddszl 发表于 2020-4-21 02:25

johntsemin 发表于 2020-4-21 02:09
if __name__ == "__main__":

soup = BeautifulSoup(html.content, 'lxml' )


content打出来还是老样子{:1_908:}

chen4321 发表于 2020-4-21 07:28

老老实实用douban的API ,get https://api.douban.com/v2/book/:id

开心快乐每一天 发表于 2020-4-21 08:03

可以使用xpath语法试试

jidesheng6 发表于 2020-4-21 08:05

ctrl+u看网页源代码 你看看还能找到不 找不到就是用js动态生成的页面了
页: [1] 2
查看完整版本: 单线程初级爬虫求解惑