吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1682|回复: 12
收起左侧

[求助] python_爬虫遇到ajax技术爬取数据的困惑??

[复制链接]
double07 发表于 2021-5-1 09:10
本帖最后由 double07 于 2021-5-3 11:01 编辑

最近关注爬虫,爬了各种网站数据,下面数据问题第一次遇到,还请大佬指点:1.爬取二级网页数据,想要获得图1中的部分数据,经过分析数据放在Ajax中的链接中,而且此链接要下拉网页才会出现,同时观察了不同商品链接,发现请求链接无规律可寻(每次刷新页面都会变化),就无法批量获取链接解析得到数据:对于Ajax情况,如何异步批量获取数据的链接?

微信截图_20210501100139.png
微信截图_20210501100312.png

2.上述的请求链接只是其中一个,如爬取成千个链接中的数据,是先获得这上千条数据的链接,再通过requests请求上千次,解析提取数据?这样多的请求能拿到数据?有其它方法?



发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

侃遍天下无二人 发表于 2021-5-1 09:38
再请求一下https://itemcdn.tmall.com/desc/icoss2238806525fb84522b174c7173?var=desc不就能看到数据了
侃遍天下无二人 发表于 2021-5-1 09:39
有多少就请求多少,应该没别的办法,你恐怕还得想想验证码的事
 楼主| double07 发表于 2021-5-1 09:46
侃遍天下无二人 发表于 2021-5-1 09:38
再请求一下https://itemcdn.tmall.com/desc/icoss2238806525fb84522b174c7173?var=desc不就能看到数据了

这个地址在二级网页下,目前有四千多个二级面页,如果先请求二级网页解析出这个地址,再请求、解析这个地址,这样估计抓不到数据?要被彻底拉黑

点评

你是模拟浏览器行为的,一般没事。 那不然就随机ua或是增加每一个页面上链接爬取的延时  详情 回复 发表于 2021-5-1 10:00
涛之雨 发表于 2021-5-1 10:00
double07 发表于 2021-5-1 09:46
这个地址在二级网页下,目前有四千多个二级面页,如果先请求二级网页解析出这个地址,再请求、解析这个地 ...

你是模拟浏览器行为的,一般没事。
那不然就随机ua或是增加每一个页面上链接爬取的延时
 楼主| double07 发表于 2021-5-1 10:06
涛之雨 发表于 2021-5-1 10:00
你是模拟浏览器行为的,一般没事。
那不然就随机ua或是增加每一个页面上链接爬取的延时

领导来了

补充,没用selenium,用起来太慢。这次用的是request方式处理

点评

用fakeua库,然后加延时等等  详情 回复 发表于 2021-5-1 10:16
涛之雨 发表于 2021-5-1 10:16
本帖最后由 涛之雨 于 2021-5-1 10:18 编辑
double07 发表于 2021-5-1 10:06
领导来了

补充,没用selenium,用起来太慢。这次用的是request方式处理

用fakeua库,然后加延时等等
我只会用request,不会用selenium。。。
我一般用Python都是去批量发送请求,而不是去爬东西的。
namedlxd 发表于 2021-5-1 11:16
试试无头浏览器
 楼主| double07 发表于 2021-5-1 11:19
namedlxd 发表于 2021-5-1 11:16
试试无头浏览器

遇到ajax批量取地址,只有senlium一种方式?
头像被屏蔽
百千三昧 发表于 2021-5-1 11:40
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 02:55

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表