吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4282|回复: 21
上一主题 下一主题
收起左侧

[其他转载] 一些自己想出来的很皮的反爬技巧

  [复制链接]
跳转到指定楼层
楼主
xieyi1393 发表于 2020-4-15 22:09 回帖奖励
众所周知,现在爬虫库种类越来越多了,小白型(不说,怕违反规定)和大佬型(如Python的BS4,以及Selenium等),技术也是越来越先进,从当初模拟HTTP请求到现在直接整个浏览器出来.可是反爬技术好像还停留在N年前,基本上就是些UA检测,特征检测(针对Selenium),以及参数加密(这对于Selenium更本不是事,直接Copy走人),更先进的便是追踪鼠标,我这里想到一些特别皮(皮成仙)的反爬手段,和大家分享一下(由于内部使用,只分享部分反爬)

一.Popup反爬
各位看了标题,可能会疑惑:Popup(HTML弹框)也能玩反爬?没错,而且在此下反爬的我估计全网没几个人.那么通过什么方式来对爬虫进行拦截呢?各位应该都知道,客户来我们这是看内容不是看弹层的,用户在被弹窗遮挡内容后,会自然而然关闭掉弹框/对弹框做出反应,而爬虫并不会.爬虫只会爬取页面然后关掉网页继续下一个页面.你可能会说:不!Selenium不就可以实现自动点击吗?没错!但是,你恰恰中了我的圈套这才是这个方法的精华所在他并不是100%显示弹窗,而是有概率弹出一个,如果没显示弹框却发送Ajax请求/点击元素,那么等于自投罗网,那你又会说,Selenium不是可以自动判断某个元素是否显示和隐藏么?然而,理想很丰满,现实___.对这个元素的隐藏我并不使用display:none,而是采用将透明度设置为1%或更低并使用CSS的事件穿透达到隐藏的效果

二.通过rDNS+UserAgent对搜索引擎放白
尽管是反爬虫,遇到搜索引擎爬虫也不得不给他悠着点,具体就是通过rDNS+高速缓存,判断是否为搜索引擎,如果不是还拿着搜索引擎的UA不怀好意来的话,对不起,See you lala!

三.CacheSlime
Minecraft里面有种生物叫Slime(史莱姆),打死会掉粘液球,这也就是CacheSlime名字的来由,某些入门采集器自带自动清除COOKIE功能,每隔多少分钟自动清除COOKIE,不过,这也变成了我突破口之一,通过对浏览器缓存写入数据(通过Etag辨别用户,没谁了)

好了暂时只说这么多,新人报到,再来个作者介绍,本人高中生一枚,技术一般般,喜欢PHP,勉勉强强应该算个Web全栈,就是CSS写的不咋滴,用现成UI库还行,自己写UI就算了(本人羊驼审美),如有错误/不符合规则的地方请各位大佬指正

溜了溜了

免费评分

参与人数 1热心值 +1 收起 理由
看,六眼飞鱼 + 1 醍醐灌顶呀

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

推荐
空想昼夜 发表于 2020-4-15 23:23
本帖最后由 空想昼夜 于 2020-4-15 23:28 编辑

感觉之前遇见过最顶的反爬虫是字体加密, 了解过有方法能绕过去, 或者是ocr识别什么的.
不过感觉反爬虫这东西, 只要有, 且利益足够大, 就一定会出现反反爬虫这些方法.
我感觉是这样的

想起来一张图片

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
RemMai + 1 + 1 字体加密----百度文库行为?

查看全部评分

推荐
huansheng 发表于 2020-4-16 10:40
推荐
a87399 发表于 2020-4-15 23:09
好的,完全看不懂,感谢你再一次让我认识自己
4#
看,六眼飞鱼 发表于 2020-4-15 23:11
MC必须好评
5#
电脑手机控 发表于 2020-4-15 23:16
不明觉厉呀
6#
丁丁猫 发表于 2020-4-15 23:19
完全看不懂,还是给个好评吧
7#
空想昼夜 发表于 2020-4-15 23:19
第一个随机弹出会影响正常用户的体验吧, 有误伤
第二个一般不是遵循robots.txt嘛 不想让搜索引擎爪巴写进disallow里不行嘛 这个不太清楚
第三个应该影响不了ip池吧, 毕竟每次访问的都不是一个ip
8#
凌翰梓 发表于 2020-4-16 00:31
空想昼夜 发表于 2020-4-15 23:23
感觉之前遇见过最顶的反爬虫是字体加密, 了解过有方法能绕过去, 或者是ocr识别什么的.
不过感觉反爬虫这东 ...

墙都不服,就服你,希望我能如同图中的小白一样所向披靡,而不是直接就败北了
9#
小天使xx 发表于 2020-4-16 00:48
这,我没看懂,还是感谢分享
10#
liu2514 发表于 2020-4-16 01:08
感谢分享!
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-17 03:32

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表