yincaiTA 发表于 2021-3-22 14:27

请教:python爬数据缺失

请教:为什么图中不使用 time.sleep(2) 的话会出现部分页面请求不到数据啊?
想从 快代{过}{滤}理(https://www.kuaIDAili.com/free/) 爬点ip来做 glidesky(http://www.glidedsky.com/) 的 ip屏蔽1 那个题,但是数据总是有部分爬不到。

代码:


注释掉 sleep(2)时:(运行结果:本来是每次爬150个的,它一页有15条,部分缺失)


加上 sleep(2) 之后运行结果



qianshang666 发表于 2021-3-22 14:36

这个正常,你速度过快就会有错误,而且免费IP费的太多了,不建议进行筛选,浪费时间

xiaobailong 发表于 2021-3-22 14:50

要等待页面Dom加载出来后再取数据

magicianly 发表于 2021-3-22 15:50

这就是免费代{过}{滤}理,和服务器连接,已经返回状态码了,所以你的代码已经开始取数据,但是返回状态码和后面获取数据的时候网速慢,或者超时连接,就导致了页面正常打开,但是数据没有获取到。

jjingtian 发表于 2021-3-22 18:08

这种情况是网站已经访问到了,但是html还未加载出来造成的,建议用wait.until方法去拿数据

yincaiTA 发表于 2021-3-23 08:03

qianshang666 发表于 2021-3-22 14:36
这个正常,你速度过快就会有错误,而且免费IP费的太多了,不建议进行筛选,浪费时间

python爬数据缺失

谢谢你

yincaiTA 发表于 2021-3-23 08:04

magicianly 发表于 2021-3-22 15:50
这就是免费代{过}{滤}理,和服务器连接,已经返回状态码了,所以你的代码已经开始取数据,但是返回状态码 ...

python

谢谢你

yincaiTA 发表于 2021-3-23 08:05

xiaobailong 发表于 2021-3-22 14:50
要等待页面Dom加载出来后再取数据

python

谢谢你

yincaiTA 发表于 2021-3-23 08:09

jjingtian 发表于 2021-3-22 18:08
这种情况是网站已经访问到了,但是html还未加载出来造成的,建议用wait.until方法去拿数据

python
谢谢你
页: [1]
查看完整版本: 请教:python爬数据缺失