python爬取微博用xpath全是空的

linhai778 发表于 2022-4-19 16:25

python初学者用xpath爬取@人民日报的个人主页 - 微博 (weibo.com) 一层一层的爬取也全部是空的是我的技术不到位还是微博原本就这样

magicianly 发表于 2022-4-19 17:00

这数据就不在页面里面啊
> https://weibo.com/ajax/statuses/mymblog?uid=2803301701&page=1&feature=0
数据不是在这里吗？你xpath 能取到啥子啊？

magicianly 发表于 2022-4-19 17:02

你这是加载数据啊……

pzx521521 发表于 2022-4-19 17:04

解释一下为什么数据不在里面:
没有执行对应的js
如果要爬这一部分数据要解析对应的js 和XHR
如果不想... 可以用selenium, 自动执行js

YuanFang0w0 发表于 2022-4-19 17:26

要抓包，请求数据包就行了，不用xpth，xpth在selwnium用的比较多吧

hackerbob 发表于 2022-4-19 17:36

文字和视频根本不在页面源代码里，这是客户端渲染，需要监测网络发包，找到数据
你应该是直接右键检查了吧，那是实时的，渲染后的
你应该先去学一下js逆向，大网站都不好搞

冬酒暖阳 发表于 2022-4-19 17:49

这是通过JavaScript异步加载的数据，数据肯定不在原来的HTML文档里，而在js请求的接口回传的数据里，类似于这样

三滑稽甲苯 发表于 2022-4-19 17:55

这是动态加载的数据，如果你一定要用xpath就要用selenium

pangpang02 发表于 2022-4-20 10:21

最好用抓包工具分析一下，不然得不到真正的数据源请求

linhai778 发表于 2022-4-21 11:05

冬酒暖阳发表于 2022-4-19 17:49
这是通过JavaScript异步加载的数据，数据肯定不在原来的HTML文档里，而在js请求的接口回传的数据里，类似于 ...

我抓的就是HTML 但为什么不显示呢？

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver