爬政府网站太狠了,被封IP怎么办?
昨天爬取政府网站,一时间没控制住他的爬取频率,现在IP 被封了,怎么办呢?{:301_1004:}现在挂上了proxy 之后勉强能爬,然后用time.sleep(5)来规避他的反爬机制,但这个方法的弱点是爬取速度太慢了。
请问如何正确的使用proxy来完成快速的爬虫任务呢?
{:301_985:}
我可能要爬个36个省市的违规处罚的数据,这数据量可不小呢! 然后还要用re 筛选每一页的姓名、处罚依据、判决、处罚时间。
一个个爬可太气人了呀{:301_974:} hj170520 发表于 2020-11-21 11:38
我可能要爬个36个省市的违规处罚的数据,这数据量可不小呢! 然后还要用re 筛选每一页的姓名、处罚依据、判 ...
最好的方式就是不要爬 爬多了,会不会进去?{:301_982:} 枫子树 发表于 2020-11-21 11:39
构建代{过}{滤}理ip池 用框架不就行了
我搜一搜呀!虽不明,但觉厉啊! 冥界3大法王 发表于 2020-11-21 11:42
爬多了,会不会进去?
不知道啊! 我不算窃取国家机密吧
仅供学习参考{:301_1002:} 最好还是频率适当低一些,毕竟这是政府网站 扫点IP 来爬搞几个1W个IP就算10秒一次也贼快 别爬了不就行了