单线程初级爬虫求解惑
本帖最后由 wdxddszl 于 2020-4-21 10:57 编辑jpg.gif
但是我听的网易课堂的老师爬取成功了,我的未成功
不晓得为啥没有获得爬取的信息,请求大神指点迷津{:1_893:}
分段print来看吧,先看web下载成功没
然后看你bf规则对没,
我也是小白 还不会用bf
目前用requests+re
还有先不要写称自定义函数 这样不知道那报错不返回错误提示
如果非要自定义,加上try+excpet 返回错误信息 fanvalen 发表于 2020-4-21 01:45
分段print来看吧,先看web下载成功没
然后看你bf规则对没,
我也是小白 还不会用bf
感谢帮助!
我下次会加上防错措施
这个status_code是200,没有问题
bf我认为应该也没错,按照这个css选择器的结果与浏览器中的代码相对应{:1_907:}
就是不知道为啥没有爬取信息 本帖最后由 johntsemin 于 2020-4-21 02:14 编辑
if __name__ == "__main__":
soup = BeautifulSoup(html.content, 'lxml' )
另外把content 打出来看看有没问题
网页是js 生成的,要用其他的技术
别的也不太懂了,不精通爬虫 都是夜猫子{:301_1002:}。还不睡{:301_995:} sysgod 发表于 2020-4-21 02:15
都是夜猫子。还不睡
这东西学起来,上瘾{:1_918:} johntsemin 发表于 2020-4-21 02:09
if __name__ == "__main__":
soup = BeautifulSoup(html.content, 'lxml' )
content打出来还是老样子{:1_908:} 老老实实用douban的API ,get https://api.douban.com/v2/book/:id 可以使用xpath语法试试
ctrl+u看网页源代码 你看看还能找到不 找不到就是用js动态生成的页面了
页:
[1]
2