有没有方法使request请求链接后，拿到执行js后的响应体？

mcsy 发表于 2024-11-20 16:14

最近写了一个爬取某条文章数据的小程序。但在爬取文章这一步却犯了难。

使用python进行爬取，get请求后，返回的响应体无法执行js，所以得到的页面是js需要执行的Html。

如图：
(https://postimg.cc/YhrGyLqf)

若是在浏览器中，则会在检查中得到正常的代码。

是不是需要学一下js逆向，去找真正放文章的请求呢？
第一次，发帖，若是有不对的对方，请大家指正。

wapjsx 发表于 2024-11-20 16:52

所以，你需要学习下python里的 Selenium，若有需要的，则可查看我金山文档总结的内容。

【金山文档 | WPS云文档】 Selenium 4.0_金山文档
https://kdocs.cn/l/cdiDl9MM1DaC

mcsy 发表于 2024-11-20 16:55

wapjsx 发表于 2024-11-20 16:52
所以，你需要学习下python里的 Selenium，若有需要的，则可查看我金山文档总结的内容。

【金山文档...

感谢，这个我看了，的确能解决，C#的我也看了一下，也是类似的解决方案

狐白本白 发表于 2024-11-20 17:25

selenium配合browsermobproxy
单用selenium智能拿去页面，两者配合
可以抓取页面并且抓取页面请求返回的url

三滑稽甲苯 发表于 2024-11-20 18:15

最好还是研究一下它的代码，模拟执行的效率会比较低

icer233 发表于 2024-11-20 20:19

mcsy 发表于 2024-11-20 16:55
感谢，这个我看了，的确能解决，C#的我也看了一下，也是类似的解决方案

可以学一下和selenium很像的drissionpage，优点是drissionpage不用搞浏览器驱动。

hudengke 发表于 2024-11-20 21:02

可以用cef3框架

mcsy 发表于 2024-11-20 22:09

icer233 发表于 2024-11-20 20:19
可以学一下和selenium很像的drissionpage，优点是drissionpage不用搞浏览器驱动。

好的，等会看看

hdws8 发表于 2024-11-20 22:29

cef3框架可以学一下

页: [1]

吾爱破解 - 52pojie.cn's Archiver

有没有方法使request请求链接后，拿到执行js后的响应体？