linhai778 发表于 2022-4-19 16:25

python爬取微博用xpath全是空的

python初学者用xpath爬取@人民日报 的个人主页 - 微博 (weibo.com) 一层一层的爬取也全部是空的 是我的技术不到位还是微博原本就这样

magicianly 发表于 2022-4-19 17:00

这数据就不在页面里面啊
> https://weibo.com/ajax/statuses/mymblog?uid=2803301701&page=1&feature=0
数据不是在这里吗?你xpath 能取到啥子啊?

magicianly 发表于 2022-4-19 17:02

你这是加载数据啊……

pzx521521 发表于 2022-4-19 17:04

解释一下为什么数据不在里面:
没有执行对应的js
如果要爬这一部分数据要解析对应的js 和XHR
如果不想... 可以用selenium, 自动执行js

YuanFang0w0 发表于 2022-4-19 17:26

要抓包,请求数据包就行了,不用xpth,xpth在selwnium用的比较多吧

hackerbob 发表于 2022-4-19 17:36

文字和视频根本不在页面源代码里,这是客户端渲染,需要监测网络发包,找到数据
你应该是直接右键检查了吧,那是实时的,渲染后的
你应该先去学一下js逆向,大网站都不好搞

冬酒暖阳 发表于 2022-4-19 17:49

这是通过JavaScript异步加载的数据,数据肯定不在原来的HTML文档里,而在js请求的接口回传的数据里,类似于这样

三滑稽甲苯 发表于 2022-4-19 17:55

这是动态加载的数据,如果你一定要用xpath就要用selenium

pangpang02 发表于 2022-4-20 10:21

最好用抓包工具分析一下,不然得不到真正的数据源请求

linhai778 发表于 2022-4-21 11:05

冬酒暖阳 发表于 2022-4-19 17:49
这是通过JavaScript异步加载的数据,数据肯定不在原来的HTML文档里,而在js请求的接口回传的数据里,类似于 ...

我抓的就是HTML 但为什么不显示呢?
页: [1] 2
查看完整版本: python爬取微博用xpath全是空的