double07 发表于 2021-5-1 09:10

python_爬虫遇到ajax技术爬取数据的困惑??

本帖最后由 double07 于 2021-5-3 11:01 编辑

最近关注爬虫,爬了各种网站数据,下面数据问题第一次遇到,还请大佬指点:1.爬取二级网页数据,想要获得图1中的部分数据,经过分析数据放在Ajax中的链接中,而且此链接要下拉网页才会出现,同时观察了不同商品链接,发现请求链接无规律可寻(每次刷新页面都会变化),就无法批量获取链接解析得到数据:对于Ajax情况,如何异步批量获取数据的链接?




2.上述的请求链接只是其中一个,如爬取成千个链接中的数据,是先获得这上千条数据的链接,再通过requests请求上千次,解析提取数据?这样多的请求能拿到数据?有其它方法?



侃遍天下无二人 发表于 2021-5-1 09:38

再请求一下https://itemcdn.tmall.com/desc/icoss2238806525fb84522b174c7173?var=desc不就能看到数据了

侃遍天下无二人 发表于 2021-5-1 09:39

有多少就请求多少,应该没别的办法,你恐怕还得想想验证码的事

double07 发表于 2021-5-1 09:46

侃遍天下无二人 发表于 2021-5-1 09:38
再请求一下https://itemcdn.tmall.com/desc/icoss2238806525fb84522b174c7173?var=desc不就能看到数据了

这个地址在二级网页下,目前有四千多个二级面页,如果先请求二级网页解析出这个地址,再请求、解析这个地址,这样估计抓不到数据?要被彻底拉黑{:1_909:}

涛之雨 发表于 2021-5-1 10:00

double07 发表于 2021-5-1 09:46
这个地址在二级网页下,目前有四千多个二级面页,如果先请求二级网页解析出这个地址,再请求、解析这个地 ...

你是模拟浏览器行为的,一般没事。
那不然就随机ua或是增加每一个页面上链接爬取的延时

double07 发表于 2021-5-1 10:06

涛之雨 发表于 2021-5-1 10:00
你是模拟浏览器行为的,一般没事。
那不然就随机ua或是增加每一个页面上链接爬取的延时

领导来了:handshake

补充,没用selenium,用起来太慢。这次用的是request方式处理

涛之雨 发表于 2021-5-1 10:16

本帖最后由 涛之雨 于 2021-5-1 10:18 编辑

double07 发表于 2021-5-1 10:06
领导来了

补充,没用selenium,用起来太慢。这次用的是request方式处理
用fakeua库,然后加延时等等
我只会用request,不会用selenium。。。
我一般用Python都是去批量发送请求,而不是去爬东西的。

namedlxd 发表于 2021-5-1 11:16

试试无头浏览器

double07 发表于 2021-5-1 11:19

namedlxd 发表于 2021-5-1 11:16
试试无头浏览器

遇到ajax批量取地址,只有senlium一种方式?

百千三昧 发表于 2021-5-1 11:40

页: [1] 2
查看完整版本: python_爬虫遇到ajax技术爬取数据的困惑??