python_爬虫遇到ajax技术爬取数据的困惑？？

double07 · 发表于 2021-5-1 09:10

本帖最后由 double07 于 2021-5-3 11:01 编辑

最近关注爬虫，爬了各种网站数据，下面数据问题第一次遇到，还请大佬指点：1.爬取二级网页数据，想要获得图1中的部分数据，经过分析数据放在Ajax中的链接中，而且此链接要下拉网页才会出现，同时观察了不同商品链接，发现请求链接无规律可寻（每次刷新页面都会变化），就无法批量获取链接解析得到数据：对于Ajax情况，如何异步批量获取数据的链接？

微信截图_20210501100139.png

2.上述的请求链接只是其中一个，如爬取成千个链接中的数据，是先获得这上千条数据的链接，再通过requests请求上千次，解析提取数据？这样多的请求能拿到数据？有其它方法？

侃遍天下无二人 · 发表于 2021-5-1 09:38

再请求一下https://itemcdn.tmall.com/desc/icoss2238806525fb84522b174c7173?var=desc不就能看到数据了

侃遍天下无二人 · 发表于 2021-5-1 09:39

有多少就请求多少，应该没别的办法，你恐怕还得想想验证码的事

double07 · 发表于 2021-5-1 09:46

侃遍天下无二人发表于 2021-5-1 09:38
再请求一下https://itemcdn.tmall.com/desc/icoss2238806525fb84522b174c7173?var=desc不就能看到数据了

这个地址在二级网页下，目前有四千多个二级面页，如果先请求二级网页解析出这个地址，再请求、解析这个地址，这样估计抓不到数据？要被彻底拉黑

涛之雨 · 发表于 2021-5-1 10:00

double07 发表于 2021-5-1 09:46
这个地址在二级网页下，目前有四千多个二级面页，如果先请求二级网页解析出这个地址，再请求、解析这个地 ...

你是模拟浏览器行为的，一般没事。
那不然就随机ua或是增加每一个页面上链接爬取的延时

double07 · 发表于 2021-5-1 10:06

涛之雨发表于 2021-5-1 10:00
你是模拟浏览器行为的，一般没事。
那不然就随机ua或是增加每一个页面上链接爬取的延时

领导来了

补充，没用selenium，用起来太慢。这次用的是request方式处理

涛之雨 · 发表于 2021-5-1 10:16

本帖最后由涛之雨于 2021-5-1 10:18 编辑

double07 发表于 2021-5-1 10:06
领导来了

补充，没用selenium，用起来太慢。这次用的是request方式处理

用fakeua库，然后加延时等等
我只会用request，不会用selenium。。。
我一般用Python都是去批量发送请求，而不是去爬东西的。

namedlxd · 发表于 2021-5-1 11:16

试试无头浏览器

double07 · 发表于 2021-5-1 11:19

namedlxd 发表于 2021-5-1 11:16
试试无头浏览器

遇到ajax批量取地址，只有senlium一种方式？

百千三昧 · 发表于 2021-5-1 11:40

提示: 作者被禁止或删除内容自动屏蔽

帐号		自动登录	找回密码
密码			注册[Register]

百千三昧百千三昧当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	百千三昧发表于 2021-5-1 11:40 提示: 作者被禁止或删除内容自动屏蔽
百千三昧百千三昧当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽
	回复支持举报

[求助] python_爬虫遇到ajax技术爬取数据的困惑？？

点评

点评