有没有方法使request请求链接后,拿到执行js后的响应体?
最近写了一个爬取某条文章数据的小程序。但在爬取文章这一步却犯了难。使用python进行爬取,get请求后,返回的响应体无法执行js,所以得到的页面是js需要执行的Html。
如图:
(https://postimg.cc/YhrGyLqf)
若是在浏览器中,则会在检查中得到正常的代码。
是不是需要学一下js逆向,去找真正放文章的请求呢?
第一次,发帖,若是有不对的对方,请大家指正。 所以,你需要学习下python里的 Selenium,若有需要的,则 可 查看我 金山文档 总结的内容。
【金山文档 | WPS云文档】 Selenium 4.0_金山文档
https://kdocs.cn/l/cdiDl9MM1DaC wapjsx 发表于 2024-11-20 16:52
所以,你需要学习下python里的 Selenium,若有需要的,则 可 查看我 金山文档 总结的内容。
【金山文档...
感谢,这个我看了,的确能解决,C#的我也看了一下,也是类似的解决方案 selenium配合browsermobproxy
单用selenium智能拿去页面,两者配合
可以抓取页面并且抓取页面请求返回的url 最好还是研究一下它的代码,模拟执行的效率会比较低 mcsy 发表于 2024-11-20 16:55
感谢,这个我看了,的确能解决,C#的我也看了一下,也是类似的解决方案
可以学一下和selenium很像的drissionpage,优点是drissionpage不用搞浏览器驱动。 可以用cef3框架 icer233 发表于 2024-11-20 20:19
可以学一下和selenium很像的drissionpage,优点是drissionpage不用搞浏览器驱动。
好的,等会看看 cef3框架可以学一下
页:
[1]