hj170520 发表于 2020-11-21 11:37

爬政府网站太狠了,被封IP怎么办?

昨天爬取政府网站,一时间没控制住他的爬取频率,现在IP 被封了,怎么办呢?{:301_1004:}

现在挂上了proxy 之后勉强能爬,然后用time.sleep(5)来规避他的反爬机制,但这个方法的弱点是爬取速度太慢了。

请问如何正确的使用proxy来完成快速的爬虫任务呢?

{:301_985:}

hj170520 发表于 2020-11-21 11:38

我可能要爬个36个省市的违规处罚的数据,这数据量可不小呢! 然后还要用re 筛选每一页的姓名、处罚依据、判决、处罚时间。
一个个爬可太气人了呀{:301_974:}

枫子树 发表于 2020-11-21 11:39

imyxuan 发表于 2020-11-21 11:40

hj170520 发表于 2020-11-21 11:38
我可能要爬个36个省市的违规处罚的数据,这数据量可不小呢! 然后还要用re 筛选每一页的姓名、处罚依据、判 ...

最好的方式就是不要爬

冥界3大法王 发表于 2020-11-21 11:42

爬多了,会不会进去?{:301_982:}

hj170520 发表于 2020-11-21 11:42

枫子树 发表于 2020-11-21 11:39
构建代{过}{滤}理ip池 用框架不就行了

我搜一搜呀!虽不明,但觉厉啊!

hj170520 发表于 2020-11-21 11:45

冥界3大法王 发表于 2020-11-21 11:42
爬多了,会不会进去?

不知道啊! 我不算窃取国家机密吧
仅供学习参考{:301_1002:}

鏃犳瀬112 发表于 2020-11-21 11:47

最好还是频率适当低一些,毕竟这是政府网站

wskk998 发表于 2020-11-21 11:48

扫点IP 来爬搞几个1W个IP就算10秒一次也贼快

butchercool 发表于 2020-11-21 11:50

别爬了不就行了
页: [1] 2 3 4 5 6 7
查看完整版本: 爬政府网站太狠了,被封IP怎么办?