mcsy 发表于 2024-11-20 16:14

有没有方法使request请求链接后,拿到执行js后的响应体?

最近写了一个爬取某条文章数据的小程序。但在爬取文章这一步却犯了难。

使用python进行爬取,get请求后,返回的响应体无法执行js,所以得到的页面是js需要执行的Html。

如图:
(https://postimg.cc/YhrGyLqf)

若是在浏览器中,则会在检查中得到正常的代码。

是不是需要学一下js逆向,去找真正放文章的请求呢?
第一次,发帖,若是有不对的对方,请大家指正。

wapjsx 发表于 2024-11-20 16:52

所以,你需要学习下python里的 Selenium,若有需要的,则 可 查看我 金山文档 总结的内容。

【金山文档 | WPS云文档】 Selenium 4.0_金山文档
https://kdocs.cn/l/cdiDl9MM1DaC

mcsy 发表于 2024-11-20 16:55

wapjsx 发表于 2024-11-20 16:52
所以,你需要学习下python里的 Selenium,若有需要的,则 可 查看我 金山文档 总结的内容。

【金山文档...

感谢,这个我看了,的确能解决,C#的我也看了一下,也是类似的解决方案

狐白本白 发表于 2024-11-20 17:25

selenium配合browsermobproxy
单用selenium智能拿去页面,两者配合
可以抓取页面并且抓取页面请求返回的url

三滑稽甲苯 发表于 2024-11-20 18:15

最好还是研究一下它的代码,模拟执行的效率会比较低

icer233 发表于 2024-11-20 20:19

mcsy 发表于 2024-11-20 16:55
感谢,这个我看了,的确能解决,C#的我也看了一下,也是类似的解决方案

可以学一下和selenium很像的drissionpage,优点是drissionpage不用搞浏览器驱动。

hudengke 发表于 2024-11-20 21:02

可以用cef3框架

mcsy 发表于 2024-11-20 22:09

icer233 发表于 2024-11-20 20:19
可以学一下和selenium很像的drissionpage,优点是drissionpage不用搞浏览器驱动。

好的,等会看看

hdws8 发表于 2024-11-20 22:29

cef3框架可以学一下
页: [1]
查看完整版本: 有没有方法使request请求链接后,拿到执行js后的响应体?