吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1466|回复: 4
收起左侧

[已解决] 关于python爬虫中的proxies属性

[复制链接]
楚子沦i 发表于 2021-1-8 15:34
本帖最后由 楚子沦i 于 2021-1-8 15:58 编辑

各位大佬好,最近在用爬虫的时候发现有的时候爬着爬着就会在一个位置卡死,pycharm显示进程还在进行中,但是并没有继续把图片爬下来,后来查了一下发现好像是因为超时,所以看了一下说设置一下ip。
然后就用到了proxies这个。
但是呢,百度查的大多数都是
    proxies = {  "http": "http://10.10.1.10:3128",  "https": "http://10.10.1.10:1080"}
这个,只是一个http和一个https,我想知道假如说我有许多代{过}{滤}理可以替换,应该怎么写?是把他们都写到一起么还是用random函数随机向里面添加使用啊。
应该是把所有的ip都写到同一个proxies还是应该咋写呢。
另外再就是问一下假如说图片超时应该怎么写呢?
谢谢大佬们!!

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

归隐小赵 发表于 2021-1-8 15:41
创建一个数组,proxies_list=[ {  "http": "http://10.10.1.10:3128",  "https": "http://10.10.1.10:1080"}, {  "http": "http://10.10.1.10:3128",  "https": "http://10.10.1.10:1080"}, {  "http": "http://10.10.1.10:3128",  "https": "http://10.10.1.10:1080"}, {  "http": "http://10.10.1.10:3128",  "https": "http://10.10.1.10:1080"}]
proxies=random.choice(proxies_list)
随机设置一个代{过}{滤}理
超时就是timeout=xxx秒,加个try就行
 楼主| 楚子沦i 发表于 2021-1-8 15:51
归隐小赵 发表于 2021-1-8 15:41
创建一个数组,proxies_list=[ {  "http": "http://10.10.1.10:3128",  "https": "http://10.10.1.10:1080" ...

哦哦,明白了。我还有个问题想问,就是我爬图片的时候,会有一个图片一直爬不下来。我加了一个print显示哪些爬下来了,比如说到99了,然后半天不到100,这是啥情况呢
jidesheng6 发表于 2021-1-8 15:53
图片爬不下来,可以在requests中设置超时时间,或者用开启一个子线程去做这些事,不过我建议还是用超时时间吧
 楼主| 楚子沦i 发表于 2021-1-8 15:58
jidesheng6 发表于 2021-1-8 15:53
图片爬不下来,可以在requests中设置超时时间,或者用开启一个子线程去做这些事,不过我建议还是用超时时间 ...

哦哦,好的,感谢。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-1-16 15:57

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表