咨询python爬虫页面跳转的问题

double07 · 发表于 2021-6-4 12:31

本帖最后由 double07 于 2021-6-4 12:33 编辑

根据网页response内容，找到链接地址为：//sf-item.taobao.com/sf_item/645755343307.htm，但实际按这地址点击进去页面跑转到：https://zc-item.taobao.com/auction/645755343307.htm，导致出现提示：

[Python] 纯文本查看 复制代码

<script>
  //将用户正常页面写入到 x5referer ，以备后续跳转返回
localStorage.x5referer = "https://zc-item.taobao.com/auction/645755343307.htm";        
location.+encodeURIComponent("https://zc-item.taobao.com:443//auction/645257348003.htm/_____tmd_____/punish?x5secdata=5e0c8e1365474455070961b803bd560607b52cabf5960afff39b64ce58073f78e92d9a7283fbe20329587cf274b17d44616f9d1420f84432cab65cdf8de59a2c7bf3fd8381b0cf846dca6234fbaf10bc77b99fcb1ba2eeec835ece334a00d33d8de558990b51a94454a308719ae637b51f9dd646c25873fade0966555b42101d4c6f51283598d2daed4343fccf203aa06f2d7f5f9f01c293fa7200e136829ed1581edd5cf3b6a359e49ca1866ead36e6b6b2d8a58eb22cf10ea9807698f5d79e0b7fc974d48ec77317ff84a1bac429007f3618f32bae38a42990b03a816b107acc024b167c0b85a2bfac12391263b80746fabac8e27bc6ec8d92390e192c8fd9bdf48715b37c193eecb2c08ffd3b153c4c064a42424fa07de3912d37fe56189e1ef6064a3134649e8032b2082dd627fc8d0c86494f9b2b1e83d25f0bff6aa567cf9a1123681a1cf6ba68f8272e6b0964138ee84631a862013818f2fe0871486d46d7c07b418bd61930fcc7f43085f215daf73a4c69e24456be1b089877638b0c4717d43837dc6af643b5c2f750ad6ecbc240bfdc5f82d9854d2092952f12477a&x5step=100")
</script>

从而抓取数据失败，面对这样的跳转且无法获得数据，有办法解决？

thepoy · 发表于 2021-6-4 12:45

想用爬虫实现淘宝登录？这个想法可能不太现实。
最好还是手动登录保存 cookie ，用 cookie 进行后续的操作。

qy520 · 发表于 2021-6-4 13:06

本帖最后由 qy520 于 2021-6-4 13:12 编辑

用allow_redirects=False参数禁止跳转，获取cookie和location就行了，用法：

[Asm] 纯文本查看 复制代码

res = requests.post(url=self.url, data=self.self.data, headers=self.headers,allow_redirects=False）

benty · 发表于 2021-6-4 13:11

这个是js生成的跳转,用allow_redirects参数不可行,正确的方法应该是用execjs库来解析编译js代码然后提取最后的url,如果可以正则匹配出最后的url也可以不用execjs来执行js

double07 · 发表于 2021-6-4 13:53

benty 发表于 2021-6-4 13:11
这个是js生成的跳转,用allow_redirects参数不可行,正确的方法应该是用execjs库来解析编译js代码然后提取最 ...

response里用下在则只用匹配出sf-taobao开头的链接，跳转后的不行，你说的这个库我去了解一下，谢谢

king520 · 发表于 2021-6-4 18:01

python爬虫可以配合selenium + chromediver，浏览器能访问的网页都能抓

double07 · 发表于 2021-6-4 22:23

king520 发表于 2021-6-4 18:01
python爬虫可以配合selenium + chromediver，浏览器能访问的网页都能抓

淘宝就别想了，多动一下，就给你反爬

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 咨询python爬虫页面跳转的问题

浏览过的版块