咨询python爬虫页面跳转的问题
本帖最后由 double07 于 2021-6-4 12:33 编辑根据网页response内容,找到链接地址为://sf-item.taobao.com/sf_item/645755343307.htm,但实际按这地址点击进去页面跑转到:https://zc-item.taobao.com/auction/645755343307.htm,导致出现提示:
<script>
//将用户正常页面写入到 x5referer ,以备后续跳转返回
localStorage.x5referer = "https://zc-item.taobao.com/auction/645755343307.htm";
location.+encodeURIComponent("https://zc-item.taobao.com:443//auction/645257348003.htm/_____tmd_____/punish?x5secdata=5e0c8e1365474455070961b803bd560607b52cabf5960afff39b64ce58073f78e92d9a7283fbe20329587cf274b17d44616f9d1420f84432cab65cdf8de59a2c7bf3fd8381b0cf846dca6234fbaf10bc77b99fcb1ba2eeec835ece334a00d33d8de558990b51a94454a308719ae637b51f9dd646c25873fade0966555b42101d4c6f51283598d2daed4343fccf203aa06f2d7f5f9f01c293fa7200e136829ed1581edd5cf3b6a359e49ca1866ead36e6b6b2d8a58eb22cf10ea9807698f5d79e0b7fc974d48ec77317ff84a1bac429007f3618f32bae38a42990b03a816b107acc024b167c0b85a2bfac12391263b80746fabac8e27bc6ec8d92390e192c8fd9bdf48715b37c193eecb2c08ffd3b153c4c064a42424fa07de3912d37fe56189e1ef6064a3134649e8032b2082dd627fc8d0c86494f9b2b1e83d25f0bff6aa567cf9a1123681a1cf6ba68f8272e6b0964138ee84631a862013818f2fe0871486d46d7c07b418bd61930fcc7f43085f215daf73a4c69e24456be1b089877638b0c4717d43837dc6af643b5c2f750ad6ecbc240bfdc5f82d9854d2092952f12477a&x5step=100")
</script>
从而抓取数据失败,面对这样的跳转且无法获得数据,有办法解决? 想用爬虫实现淘宝登录?这个想法可能不太现实。
最好还是手动登录保存 cookie ,用 cookie 进行后续的操作。 本帖最后由 qy520 于 2021-6-4 13:12 编辑
用allow_redirects=False参数禁止跳转,获取cookie和location就行了,用法:res = requests.post(url=self.url, data=self.self.data, headers=self.headers,allow_redirects=False) 这个是js生成的跳转,用allow_redirects参数不可行,正确的方法应该是用execjs库来解析编译js代码然后提取最后的url,如果可以正则匹配出最后的url也可以不用execjs来执行js benty 发表于 2021-6-4 13:11
这个是js生成的跳转,用allow_redirects参数不可行,正确的方法应该是用execjs库来解析编译js代码然后提取最 ...
response里用下在则只用匹配出sf-taobao开头的链接,跳转后的不行,你说的这个库我去了解一下,谢谢 python爬虫可以配合selenium + chromediver,浏览器能访问的网页都能抓 king520 发表于 2021-6-4 18:01
python爬虫可以配合selenium + chromediver,浏览器能访问的网页都能抓
淘宝就别想了,多动一下,就给你反爬
页:
[1]