jianghu 发表于 2020-6-13 21:28

火车头采集302 跳转后的网址链接

在baidu找了几天的资料 都没有找到.在悬赏也问过了 难道大家都没碰到过这个问题吗?
或者说 这个问题很难处理.但是要采集碰到这个问题很正常啊.
用火车头7.6试过了 V9 尝试过http请求
要不就上只能看到302之后的页面的源码
要不就上网址错误 各种错误 或者空白
http请求也设置过自动跳转
UA都设置过了


<h4>下载地址</h4>
                                <a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>百度网盘</a><a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>蓝奏网盘</a><a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>微云网盘</a><a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>天翼网盘</a><a href="#down" class="sbtn" title=""><i class="ico"></i><i class="line"></i>UC网盘</a>

366697846 发表于 2020-6-13 21:57

采集什么内容?A标签都是链接到down页面。去down页面采集不行吗?

brujah 发表于 2020-6-13 21:57

没太明白你的意思,是说302重定向后的页面空白么?如果要抓取重定向之前的页面元素,我记得火车头好像可以通过编写插件去改写AfterResponse(什么参数忘了...)

jianghu 发表于 2020-6-13 22:03

brujah 发表于 2020-6-13 21:57
没太明白你的意思,是说302重定向后的页面空白么?如果要抓取重定向之前的页面元素,我记得火车头好像可以 ...

这个是网盘的地址 火车头我试过了 http 返回头有重定向之后的页面 但是就是抓不到.

bookaccount 发表于 2020-6-13 22:08

火车头应该只是发http request吧,不能执行javascript,估计没法对付跳转

jianghu 发表于 2020-6-13 22:55

366697846 发表于 2020-6-13 21:57
采集什么内容?A标签都是链接到down页面。去down页面采集不行吗?

A链接是302

shileiye 发表于 2020-6-13 23:53

a标签那个根本不是链接···按钮的JS点击事件里才有链接···那个在页面源码里多半是看不到的···

brujah 发表于 2020-6-14 00:46

jianghu 发表于 2020-6-13 22:03
这个是网盘的地址 火车头我试过了 http 返回头有重定向之后的页面 但是就是抓不到.

用 Python + Requests吧,可以追踪并禁用重定向

jianghu 发表于 2020-6-14 09:27

shileiye 发表于 2020-6-13 23:53
a标签那个根本不是链接···按钮的JS点击事件里才有链接···那个在页面源码里多半是看不到的···

<a href="#down" onclick="window.open('/plus/download.php?open=2&id=11022&uhash=76ae6d57ec693ac4c5c09463');return false;" class="sbtn" title=""><i class="ico"></i><i class="line"></i>百度网盘</a><a href="#down" onclick="window.open('/plus/download.php?open=2&id=11022&uhash=0d3d3ca29e9d22a962c1b4a1');return false;" class="sbtn" title=""><i class="ico"></i><i class="line"></i>天翼网盘</a><a href="#down" onclick="window.open('/plus/download.php?open=2&id=11022&uhash=01a55352d94656e2dadf8c7f');return false;" class="sbtn" title=""><i class="ico"></i><i class="line"></i>微云网盘</a><a href="#down" onclick="window.open('/plus/download.php?open=2&id=11022&uhash=8459816cecb362ccd5d3e9fa');return false;" class="sbtn" title=""><i class="ico"></i><i class="line"></i>UC网盘</a>

shileiye 发表于 2020-6-15 17:24

jianghu 发表于 2020-6-14 09:27


火车头采不了这种
页: [1] 2
查看完整版本: 火车头采集302 跳转后的网址链接