吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1284|回复: 12
收起左侧

[求助] python爬取微博用xpath全是空的

[复制链接]
linhai778 发表于 2022-4-19 16:25
python初学者用xpath爬取@人民日报 的个人主页 - 微博 (weibo.com) 一层一层的爬取也全部是空的 是我的技术不到位还是微博原本就这样
image.png

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

magicianly 发表于 2022-4-19 17:00
这数据就不在页面里面啊

数据不是在这里吗?你xpath 能取到啥子啊?
magicianly 发表于 2022-4-19 17:02
pzx521521 发表于 2022-4-19 17:04
解释一下为什么数据不在里面:
没有执行对应的js
如果要爬这一部分数据  要解析对应的js 和XHR
如果不想... 可以用selenium, 自动执行js
YuanFang0w0 发表于 2022-4-19 17:26
要抓包,请求数据包就行了,不用xpth,xpth在selwnium用的比较多吧
hackerbob 发表于 2022-4-19 17:36
文字和视频根本不在页面源代码里,这是客户端渲染,需要监测网络发包,找到数据
你应该是直接右键检查了吧,那是实时的,渲染后的
你应该先去学一下js逆向,大网站都不好搞
冬酒暖阳 发表于 2022-4-19 17:49
这是通过JavaScript异步加载的数据,数据肯定不在原来的HTML文档里,而在js请求的接口回传的数据里,类似于这样

Snipaste_2022-04-19_17-49-22.png
三滑稽甲苯 发表于 2022-4-19 17:55
这是动态加载的数据,如果你一定要用xpath就要用selenium
pangpang02 发表于 2022-4-20 10:21
最好用抓包工具分析一下,不然得不到真正的数据源请求
 楼主| linhai778 发表于 2022-4-21 11:05
冬酒暖阳 发表于 2022-4-19 17:49
这是通过JavaScript异步加载的数据,数据肯定不在原来的HTML文档里,而在js请求的接口回传的数据里,类似于 ...

我抓的就是HTML 但为什么不显示呢?
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 12:53

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表