吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1213|回复: 10
收起左侧

[求助] 爬虫--如何在随机生成的混淆文本是提取想要的信息?

[复制链接]
thepoy 发表于 2020-10-24 14:47
本帖最后由 thepoy 于 2020-10-24 15:49 编辑

这是网页源码被混淆的部分源码:
image.png

这是浏览器渲染后的网页:
image.png


看不懂文字混淆的吗?源码里不同的标签用的同一个class,但渲染后class才变成不一样的class,有的显示有的隐藏。我想要的是如何在源码里提取出渲染后的显示的标签的文本内容。

span的class是固定的,id是随机的,css文件很简单,没有区分不同id样式的css。
js文件有很多,我也没找到相关的代码。

实再看不懂这是如何实现的。
请有经验的高手指定一二。

这是爬下来的网页源码:
链接: https://pan.baidu.com/s/1-vebOxC2ozK9kwS68ueCWQ 提取码: 1ij2

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

fortytwo 发表于 2020-10-24 14:58
不能直接遍历Class吗?管啥ID啊,能实现功能就是目的,反爬手段变很快的一般来说。
漁滒 发表于 2020-10-24 15:09
我没看到你最终的需求是什么,你想提取哪些信息
ronle 发表于 2020-10-24 15:24
 楼主| thepoy 发表于 2020-10-24 15:41
本帖最后由 thepoy 于 2020-10-24 15:47 编辑
SailZhao520 发表于 2020-10-24 14:58
不能直接遍历Class吗?管啥ID啊,能实现功能就是目的,反爬手段变很快的一般来说。

显示标签和隐藏的混淆标签的class是一个,遍历什么?怎么遍历?
只用源码是没办法遍历的,想要遍历只能等它在浏览器里渲染完。但在浏览器里渲染完,我直接提取title就好了,也不需要遍历。
 楼主| thepoy 发表于 2020-10-24 15:46
本帖最后由 thepoy 于 2020-10-24 15:49 编辑
ronle 发表于 2020-10-24 15:24
遍历class即可,不需要纠结id

显示标签和隐藏的混淆标签的class是一个,怎么遍历class?
只用源码是没办法遍历的,想要遍历只能等它在浏览器里渲染完。但在浏览器里渲染完,我直接提取title就好了,也不需要遍历。
fortytwo 发表于 2020-10-24 16:27
thepoy 发表于 2020-10-24 15:46
显示标签和隐藏的混淆标签的class是一个,怎么遍历class?
只用源码是没办法遍历的,想要遍历只能等它在 ...

等渲染完,不是大批量,以及频繁,长时间去爬取,渲染耗费的性能还是比较划算的。
ymhld 发表于 2020-10-25 11:34
有空学学网页和正则吧,虽然我没看明白,但确实有用
 楼主| thepoy 发表于 2020-10-25 12:10
ymhld 发表于 2020-10-25 11:34
有空学学网页和正则吧,虽然我没看明白,但确实有用

这和正则没有关系,和网页也没关系,我也是没明白你都没看明白,提的这是什么建议?
ronle 发表于 2020-10-25 21:00
thepoy 发表于 2020-10-24 15:46
显示标签和隐藏的混淆标签的class是一个,怎么遍历class?
只用源码是没办法遍历的,想要遍历只能等它在 ...

渲染完才有的数据,那直接抓接口返回就好了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 11:50

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表