thepoy 发表于 2020-10-24 14:47

爬虫--如何在随机生成的混淆文本是提取想要的信息?

本帖最后由 thepoy 于 2020-10-24 15:49 编辑

这是网页源码被混淆的部分源码:


这是浏览器渲染后的网页:



看不懂文字混淆的吗?源码里不同的标签用的同一个class,但渲染后class才变成不一样的class,有的显示有的隐藏。我想要的是如何在源码里提取出渲染后的显示的标签的文本内容。

span的class是固定的,id是随机的,css文件很简单,没有区分不同id样式的css。
js文件有很多,我也没找到相关的代码。

实再看不懂这是如何实现的。
请有经验的高手指定一二。

这是爬下来的网页源码:
链接: https://pan.baidu.com/s/1-vebOxC2ozK9kwS68ueCWQ 提取码: 1ij2

fortytwo 发表于 2020-10-24 14:58

不能直接遍历Class吗?管啥ID啊,能实现功能就是目的,反爬手段变很快的一般来说。

漁滒 发表于 2020-10-24 15:09

我没看到你最终的需求是什么,你想提取哪些信息

ronle 发表于 2020-10-24 15:24

遍历class即可,不需要纠结id

thepoy 发表于 2020-10-24 15:41

本帖最后由 thepoy 于 2020-10-24 15:47 编辑

SailZhao520 发表于 2020-10-24 14:58
不能直接遍历Class吗?管啥ID啊,能实现功能就是目的,反爬手段变很快的一般来说。
显示标签和隐藏的混淆标签的class是一个,遍历什么?怎么遍历?
只用源码是没办法遍历的,想要遍历只能等它在浏览器里渲染完。但在浏览器里渲染完,我直接提取title就好了,也不需要遍历。

thepoy 发表于 2020-10-24 15:46

本帖最后由 thepoy 于 2020-10-24 15:49 编辑

ronle 发表于 2020-10-24 15:24
遍历class即可,不需要纠结id
显示标签和隐藏的混淆标签的class是一个,怎么遍历class?
只用源码是没办法遍历的,想要遍历只能等它在浏览器里渲染完。但在浏览器里渲染完,我直接提取title就好了,也不需要遍历。

fortytwo 发表于 2020-10-24 16:27

thepoy 发表于 2020-10-24 15:46
显示标签和隐藏的混淆标签的class是一个,怎么遍历class?
只用源码是没办法遍历的,想要遍历只能等它在 ...

等渲染完,不是大批量,以及频繁,长时间去爬取,渲染耗费的性能还是比较划算的。

ymhld 发表于 2020-10-25 11:34

有空学学网页和正则吧,虽然我没看明白,但确实有用

thepoy 发表于 2020-10-25 12:10

ymhld 发表于 2020-10-25 11:34
有空学学网页和正则吧,虽然我没看明白,但确实有用

这和正则没有关系,和网页也没关系,我也是没明白你都没看明白,提的这是什么建议?

ronle 发表于 2020-10-25 21:00

thepoy 发表于 2020-10-24 15:46
显示标签和隐藏的混淆标签的class是一个,怎么遍历class?
只用源码是没办法遍历的,想要遍历只能等它在 ...

渲染完才有的数据,那直接抓接口返回就好了
页: [1] 2
查看完整版本: 爬虫--如何在随机生成的混淆文本是提取想要的信息?