求助各位大神解决下爬取文件失败的问题

aiyamaya 发表于 2022-5-11 00:07

本帖最后由 aiyamaya 于 2022-5-11 00:12 编辑

目标：爬取某个网站上的key.key文件
https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls/key.key实验步骤：1、用浏览器直接访问该文件，可下载；
               2、用requests.get()直接抓取，失败；
               3、构造header中的UA，失败；
               4、浏览器F12，发现“Sec-Fetch-系列头部，加入相关构造，失败！！！
构造header代码：
head_key = {"Host":"hey07.789zy.cc",
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0",
"Origin":"https://www.ikanjushe.xyz",
"Connection":"keep-alive",
"Sec-Fetch-Dest":"document",
"Sec-Fetch-Mode":"navigate",
"Sec-Fetch-Site":"none",
"Sec-Fetch-User":"?1",
"Upgrade-Insecure-Requests":"1",
"Connection":"keep-alive"}
请求代码：
resp = requests.get(url,headers=head_key)
print(resp.request.headers)
print(resp.request.body)
print(resp.content)

恳请各位大神劳神解惑，非常感谢！

平淡最真 发表于 2022-5-11 00:46

import requests

url="https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls/key.key"
headers = {
'Host': 'hey07.789zy.cc',
'Connection': 'keep-alive',
'Pragma': 'no-cache',
'Cache-Control': 'no-cache',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Sec-Fetch-Site': 'none',
'Sec-Fetch-Mode': 'navigate',
'Sec-Fetch-User': '?1',
'Sec-Fetch-Dest': 'document',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}

ret=requests.get(url=url, headers=headers)

print(ret.text)

结果：
https://img02-xusong.taihe.com/6FFCC0FC-439F-464A-996A-605F8D304F59.png

Goldrepo 发表于 2022-5-11 00:51

那就奇怪了，我随便写了个获取的方法，都能正常拿到返回的内容

aiyamaya 发表于 2022-5-11 00:55

Goldrepo 发表于 2022-5-11 00:51
那就奇怪了，我随便写了个获取的方法，都能正常拿到返回的内容

那这是为什么啊？浏览器能下载说明ip没有被封
可以用request就是拿不到一直报404:'(weeqw

aiyamaya 发表于 2022-5-11 00:58

平淡最真发表于 2022-5-11 00:46
import requests

url="https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls ...

resp.text和resp.content我都试过两个都是404:@

aiyamaya 发表于 2022-5-11 01:02

为了验证不是被封ip 我还特地换了数据流量重启网卡结果还是返回404
但浏览器一直能正常下载{:1_909:}

Goldrepo 发表于 2022-5-11 01:47

aiyamaya 发表于 2022-5-11 00:55
那这是为什么啊？浏览器能下载说明ip没有被封
可以用request就是拿不到一直报404

有试过别的链接也是404吗？还是别的链接是正常的，如果别的链接正常的，那检查下你的编译器是不是加了什么拦截了，或者request版本看下

d8349565 发表于 2022-5-11 08:51

https://curlconverter.com/
快速获取请求头

aZunSir 发表于 2022-5-11 09:01

没有加header头，也可以正常请求到

aiyamaya 发表于 2022-5-11 09:35

aZunSir 发表于 2022-5-11 09:01
没有加header头，也可以正常请求到

上面两位老师也是简单请求就可以正常响应，但我这边就是不行，版本是对的，浏览器访问均正常，m3u8文件获取正常，就是key文件404！

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

求助各位大神解决下爬取文件失败的问题