python_爬虫遇到ajax技术爬取数据的困惑??
本帖最后由 double07 于 2021-5-3 11:01 编辑最近关注爬虫,爬了各种网站数据,下面数据问题第一次遇到,还请大佬指点:1.爬取二级网页数据,想要获得图1中的部分数据,经过分析数据放在Ajax中的链接中,而且此链接要下拉网页才会出现,同时观察了不同商品链接,发现请求链接无规律可寻(每次刷新页面都会变化),就无法批量获取链接解析得到数据:对于Ajax情况,如何异步批量获取数据的链接?
2.上述的请求链接只是其中一个,如爬取成千个链接中的数据,是先获得这上千条数据的链接,再通过requests请求上千次,解析提取数据?这样多的请求能拿到数据?有其它方法?
再请求一下https://itemcdn.tmall.com/desc/icoss2238806525fb84522b174c7173?var=desc不就能看到数据了
有多少就请求多少,应该没别的办法,你恐怕还得想想验证码的事 侃遍天下无二人 发表于 2021-5-1 09:38
再请求一下https://itemcdn.tmall.com/desc/icoss2238806525fb84522b174c7173?var=desc不就能看到数据了
这个地址在二级网页下,目前有四千多个二级面页,如果先请求二级网页解析出这个地址,再请求、解析这个地址,这样估计抓不到数据?要被彻底拉黑{:1_909:} double07 发表于 2021-5-1 09:46
这个地址在二级网页下,目前有四千多个二级面页,如果先请求二级网页解析出这个地址,再请求、解析这个地 ...
你是模拟浏览器行为的,一般没事。
那不然就随机ua或是增加每一个页面上链接爬取的延时 涛之雨 发表于 2021-5-1 10:00
你是模拟浏览器行为的,一般没事。
那不然就随机ua或是增加每一个页面上链接爬取的延时
领导来了:handshake
补充,没用selenium,用起来太慢。这次用的是request方式处理 本帖最后由 涛之雨 于 2021-5-1 10:18 编辑
double07 发表于 2021-5-1 10:06
领导来了
补充,没用selenium,用起来太慢。这次用的是request方式处理
用fakeua库,然后加延时等等
我只会用request,不会用selenium。。。
我一般用Python都是去批量发送请求,而不是去爬东西的。 试试无头浏览器 namedlxd 发表于 2021-5-1 11:16
试试无头浏览器
遇到ajax批量取地址,只有senlium一种方式?
页:
[1]
2