爬虫--如何在随机生成的混淆文本是提取想要的信息?
本帖最后由 thepoy 于 2020-10-24 15:49 编辑这是网页源码被混淆的部分源码:
这是浏览器渲染后的网页:
看不懂文字混淆的吗?源码里不同的标签用的同一个class,但渲染后class才变成不一样的class,有的显示有的隐藏。我想要的是如何在源码里提取出渲染后的显示的标签的文本内容。
span的class是固定的,id是随机的,css文件很简单,没有区分不同id样式的css。
js文件有很多,我也没找到相关的代码。
实再看不懂这是如何实现的。
请有经验的高手指定一二。
这是爬下来的网页源码:
链接: https://pan.baidu.com/s/1-vebOxC2ozK9kwS68ueCWQ 提取码: 1ij2 不能直接遍历Class吗?管啥ID啊,能实现功能就是目的,反爬手段变很快的一般来说。 我没看到你最终的需求是什么,你想提取哪些信息 遍历class即可,不需要纠结id 本帖最后由 thepoy 于 2020-10-24 15:47 编辑
SailZhao520 发表于 2020-10-24 14:58
不能直接遍历Class吗?管啥ID啊,能实现功能就是目的,反爬手段变很快的一般来说。
显示标签和隐藏的混淆标签的class是一个,遍历什么?怎么遍历?
只用源码是没办法遍历的,想要遍历只能等它在浏览器里渲染完。但在浏览器里渲染完,我直接提取title就好了,也不需要遍历。 本帖最后由 thepoy 于 2020-10-24 15:49 编辑
ronle 发表于 2020-10-24 15:24
遍历class即可,不需要纠结id
显示标签和隐藏的混淆标签的class是一个,怎么遍历class?
只用源码是没办法遍历的,想要遍历只能等它在浏览器里渲染完。但在浏览器里渲染完,我直接提取title就好了,也不需要遍历。 thepoy 发表于 2020-10-24 15:46
显示标签和隐藏的混淆标签的class是一个,怎么遍历class?
只用源码是没办法遍历的,想要遍历只能等它在 ...
等渲染完,不是大批量,以及频繁,长时间去爬取,渲染耗费的性能还是比较划算的。 有空学学网页和正则吧,虽然我没看明白,但确实有用 ymhld 发表于 2020-10-25 11:34
有空学学网页和正则吧,虽然我没看明白,但确实有用
这和正则没有关系,和网页也没关系,我也是没明白你都没看明白,提的这是什么建议? thepoy 发表于 2020-10-24 15:46
显示标签和隐藏的混淆标签的class是一个,怎么遍历class?
只用源码是没办法遍历的,想要遍历只能等它在 ...
渲染完才有的数据,那直接抓接口返回就好了
页:
[1]
2