求助各位大神解决下爬取文件失败的问题

aiyamaya · 发表于 2022-5-11 00:07

本帖最后由 aiyamaya 于 2022-5-11 00:12 编辑

目标：爬取某个网站上的key.key文件
[HTML] 纯文本查看 复制代码
https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls/key.key
实验步骤：1、用浏览器直接访问该文件，可下载；
               2、用requests.get()直接抓取，失败；
               3、构造header中的UA，失败；
               4、浏览器F12，发现“Sec-Fetch-系列头部，加入相关构造，失败！！！
构造header代码：
[Python] 纯文本查看 复制代码
head_key = {"Host":"hey07.789zy.cc", "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0", "Origin":"https://www.ikanjushe.xyz", "Connection":"keep-alive", "Sec-Fetch-Dest":"document", "Sec-Fetch-Mode":"navigate", "Sec-Fetch-Site":"none", "Sec-Fetch-User":"?1", "Upgrade-Insecure-Requests":"1", "Connection":"keep-alive"}

请求代码：
[Python] 纯文本查看 复制代码
resp = requests.get(url,headers=head_key) print(resp.request.headers) print(resp.request.body) print(resp.content)

恳请各位大神劳神解惑，非常感谢！

平淡最真 · 发表于 2022-5-11 00:46

[Python] 纯文本查看 复制代码

import requests

url="https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls/key.key"
headers = {
    'Host': 'hey07.789zy.cc',
    'Connection': 'keep-alive',
    'Pragma': 'no-cache',
    'Cache-Control': 'no-cache',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}

ret=requests.get(url=url, headers=headers)

print(ret.text)

结果：

Goldrepo · 发表于 2022-5-11 00:51

那就奇怪了，我随便写了个获取的方法，都能正常拿到返回的内容

aiyamaya · 发表于 2022-5-11 00:55

Goldrepo 发表于 2022-5-11 00:51
那就奇怪了，我随便写了个获取的方法，都能正常拿到返回的内容

那这是为什么啊？浏览器能下载说明ip没有被封
可以用request就是拿不到一直报404

aiyamaya · 发表于 2022-5-11 00:58

平淡最真发表于 2022-5-11 00:46
[mw_shl_code=python,true]import requests

url="https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls ...

resp.text和resp.content我都试过两个都是404

aiyamaya · 发表于 2022-5-11 01:02

为了验证不是被封ip 我还特地换了数据流量重启网卡结果还是返回404
但浏览器一直能正常下载

Goldrepo · 发表于 2022-5-11 01:47

aiyamaya 发表于 2022-5-11 00:55
那这是为什么啊？浏览器能下载说明ip没有被封
可以用request就是拿不到一直报404

有试过别的链接也是404吗？还是别的链接是正常的，如果别的链接正常的，那检查下你的编译器是不是加了什么拦截了，或者request版本看下

d8349565 · 发表于 2022-5-11 08:51

https://curlconverter.com/
快速获取请求头

aZunSir · 发表于 2022-5-11 09:01

没有加header头，也可以正常请求到

aiyamaya · 发表于 2022-5-11 09:35

aZunSir 发表于 2022-5-11 09:01
没有加header头，也可以正常请求到

上面两位老师也是简单请求就可以正常响应，但我这边就是不行，版本是对的，浏览器访问均正常，m3u8文件获取正常，就是key文件404！

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 求助各位大神解决下爬取文件失败的问题

免费评分

免费评分