关于python爬虫中的proxies属性

楚子沦i · 发表于 2021-1-8 15:34

本帖最后由楚子沦i 于 2021-1-8 15:58 编辑

各位大佬好，最近在用爬虫的时候发现有的时候爬着爬着就会在一个位置卡死，pycharm显示进程还在进行中，但是并没有继续把图片爬下来，后来查了一下发现好像是因为超时，所以看了一下说设置一下ip。
然后就用到了proxies这个。
但是呢，百度查的大多数都是
proxies = { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080"}
这个，只是一个http和一个https，我想知道假如说我有许多代{过}{滤}理可以替换，应该怎么写？是把他们都写到一起么还是用random函数随机向里面添加使用啊。
应该是把所有的ip都写到同一个proxies还是应该咋写呢。
另外再就是问一下假如说图片超时应该怎么写呢？
谢谢大佬们！！

归隐小赵 · 发表于 2021-1-8 15:41

创建一个数组，proxies_list=[ { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080"}, { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080"}, { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080"}, { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080"}]
proxies=random.choice(proxies_list)
随机设置一个代{过}{滤}理
超时就是timeout=xxx秒，加个try就行

楚子沦i · 发表于 2021-1-8 15:51

归隐小赵发表于 2021-1-8 15:41
创建一个数组，proxies_list=[ { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080" ...

哦哦，明白了。我还有个问题想问，就是我爬图片的时候，会有一个图片一直爬不下来。我加了一个print显示哪些爬下来了，比如说到99了，然后半天不到100，这是啥情况呢

jidesheng6 · 发表于 2021-1-8 15:53

图片爬不下来，可以在requests中设置超时时间，或者用开启一个子线程去做这些事，不过我建议还是用超时时间吧

楚子沦i · 发表于 2021-1-8 15:58

jidesheng6 发表于 2021-1-8 15:53
图片爬不下来，可以在requests中设置超时时间，或者用开启一个子线程去做这些事，不过我建议还是用超时时间 ...

哦哦，好的，感谢。

帐号		自动登录	找回密码
密码			注册[Register]

[已解决] 关于python爬虫中的proxies属性