吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3866|回复: 6
收起左侧

[求助] 咨询python爬虫页面跳转的问题

[复制链接]
double07 发表于 2021-6-4 12:31
本帖最后由 double07 于 2021-6-4 12:33 编辑

根据网页response内容,找到链接地址为://sf-item.taobao.com/sf_item/645755343307.htm,但实际按这地址点击进去页面跑转到:https://zc-item.taobao.com/auction/645755343307.htm,导致出现提示:
[Python] 纯文本查看 复制代码
<script>
  //将用户正常页面写入到 x5referer ,以备后续跳转返回
localStorage.x5referer = "https://zc-item.taobao.com/auction/645755343307.htm";        
location.+encodeURIComponent("https://zc-item.taobao.com:443//auction/645257348003.htm/_____tmd_____/punish?x5secdata=5e0c8e1365474455070961b803bd560607b52cabf5960afff39b64ce58073f78e92d9a7283fbe20329587cf274b17d44616f9d1420f84432cab65cdf8de59a2c7bf3fd8381b0cf846dca6234fbaf10bc77b99fcb1ba2eeec835ece334a00d33d8de558990b51a94454a308719ae637b51f9dd646c25873fade0966555b42101d4c6f51283598d2daed4343fccf203aa06f2d7f5f9f01c293fa7200e136829ed1581edd5cf3b6a359e49ca1866ead36e6b6b2d8a58eb22cf10ea9807698f5d79e0b7fc974d48ec77317ff84a1bac429007f3618f32bae38a42990b03a816b107acc024b167c0b85a2bfac12391263b80746fabac8e27bc6ec8d92390e192c8fd9bdf48715b37c193eecb2c08ffd3b153c4c064a42424fa07de3912d37fe56189e1ef6064a3134649e8032b2082dd627fc8d0c86494f9b2b1e83d25f0bff6aa567cf9a1123681a1cf6ba68f8272e6b0964138ee84631a862013818f2fe0871486d46d7c07b418bd61930fcc7f43085f215daf73a4c69e24456be1b089877638b0c4717d43837dc6af643b5c2f750ad6ecbc240bfdc5f82d9854d2092952f12477a&x5step=100")
</script>


从而抓取数据失败,面对这样的跳转且无法获得数据,有办法解决?

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

thepoy 发表于 2021-6-4 12:45
想用爬虫实现淘宝登录?这个想法可能不太现实。
最好还是手动登录保存 cookie ,用 cookie 进行后续的操作。
qy520 发表于 2021-6-4 13:06
本帖最后由 qy520 于 2021-6-4 13:12 编辑

用allow_redirects=False参数禁止跳转,获取cookie和location就行了,用法:
[Asm] 纯文本查看 复制代码
res = requests.post(url=self.url, data=self.self.data, headers=self.headers,allow_redirects=False) 
benty 发表于 2021-6-4 13:11
这个是js生成的跳转,用allow_redirects参数不可行,正确的方法应该是用execjs库来解析编译js代码然后提取最后的url,如果可以正则匹配出最后的url也可以不用execjs来执行js
 楼主| double07 发表于 2021-6-4 13:53
benty 发表于 2021-6-4 13:11
这个是js生成的跳转,用allow_redirects参数不可行,正确的方法应该是用execjs库来解析编译js代码然后提取最 ...

response里用下在则只用匹配出sf-taobao开头的链接,跳转后的不行,你说的这个库我去了解一下,谢谢
king520 发表于 2021-6-4 18:01
python爬虫可以配合selenium + chromediver,浏览器能访问的网页都能抓
 楼主| double07 发表于 2021-6-4 22:23
king520 发表于 2021-6-4 18:01
python爬虫可以配合selenium + chromediver,浏览器能访问的网页都能抓

淘宝就别想了,多动一下,就给你反爬
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 01:03

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表