火车头采集302 跳转后的网址链接
在baidu找了几天的资料 都没有找到.在悬赏也问过了 难道大家都没碰到过这个问题吗?或者说 这个问题很难处理.但是要采集碰到这个问题很正常啊.
用火车头7.6试过了 V9 尝试过http请求
要不就上只能看到302之后的页面的源码
要不就上网址错误 各种错误 或者空白
http请求也设置过自动跳转
UA都设置过了
<h4>下载地址</h4>
<a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>百度网盘</a><a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>蓝奏网盘</a><a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>微云网盘</a><a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>天翼网盘</a><a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>UC网盘</a>
采集什么内容?A标签都是链接到down页面。去down页面采集不行吗? 没太明白你的意思,是说302重定向后的页面空白么?如果要抓取重定向之前的页面元素,我记得火车头好像可以通过编写插件去改写AfterResponse(什么参数忘了...) brujah 发表于 2020-6-13 21:57
没太明白你的意思,是说302重定向后的页面空白么?如果要抓取重定向之前的页面元素,我记得火车头好像可以 ...
这个是网盘的地址 火车头我试过了 http 返回头有重定向之后的页面 但是就是抓不到. 火车头应该只是发http request吧,不能执行javascript,估计没法对付跳转 366697846 发表于 2020-6-13 21:57
采集什么内容?A标签都是链接到down页面。去down页面采集不行吗?
A链接是302 a标签那个根本不是链接···按钮的JS点击事件里才有链接···那个在页面源码里多半是看不到的··· jianghu 发表于 2020-6-13 22:03
这个是网盘的地址 火车头我试过了 http 返回头有重定向之后的页面 但是就是抓不到.
用 Python + Requests吧,可以追踪并禁用重定向 shileiye 发表于 2020-6-13 23:53
a标签那个根本不是链接···按钮的JS点击事件里才有链接···那个在页面源码里多半是看不到的···
<a href="#down" onclick="window.open('/plus/download.php?open=2&id=11022&uhash=76ae6d57ec693ac4c5c09463');return false;" class="sbtn" title=""><i class="ico"></i><i class="line"></i>百度网盘</a><a href="#down" onclick="window.open('/plus/download.php?open=2&id=11022&uhash=0d3d3ca29e9d22a962c1b4a1');return false;" class="sbtn" title=""><i class="ico"></i><i class="line"></i>天翼网盘</a><a href="#down" onclick="window.open('/plus/download.php?open=2&id=11022&uhash=01a55352d94656e2dadf8c7f');return false;" class="sbtn" title=""><i class="ico"></i><i class="line"></i>微云网盘</a><a href="#down" onclick="window.open('/plus/download.php?open=2&id=11022&uhash=8459816cecb362ccd5d3e9fa');return false;" class="sbtn" title=""><i class="ico"></i><i class="line"></i>UC网盘</a> jianghu 发表于 2020-6-14 09:27
火车头采不了这种
页:
[1]
2