aiyamaya 发表于 2022-5-11 00:07

求助各位大神解决下爬取文件失败的问题

本帖最后由 aiyamaya 于 2022-5-11 00:12 编辑

目标:爬取某个网站上的key.key文件
https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls/key.key实验步骤:1、用浏览器直接访问该文件,可下载;
                  2、用requests.get()直接抓取,失败;
                  3、构造header中的UA,失败;
                  4、浏览器F12,发现“Sec-Fetch-系列头部,加入相关构造,失败!!!
构造header代码:
head_key = {"Host":"hey07.789zy.cc",
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0",
"Origin":"https://www.ikanjushe.xyz",
"Connection":"keep-alive",
"Sec-Fetch-Dest":"document",
"Sec-Fetch-Mode":"navigate",
"Sec-Fetch-Site":"none",
"Sec-Fetch-User":"?1",
"Upgrade-Insecure-Requests":"1",
"Connection":"keep-alive"}
请求代码:
resp = requests.get(url,headers=head_key)
    print(resp.request.headers)
    print(resp.request.body)
    print(resp.content)


恳请各位大神劳神解惑,非常感谢!


平淡最真 发表于 2022-5-11 00:46

import requests

url="https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls/key.key"
headers = {
    'Host': 'hey07.789zy.cc',
    'Connection': 'keep-alive',
    'Pragma': 'no-cache',
    'Cache-Control': 'no-cache',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}

ret=requests.get(url=url, headers=headers)

print(ret.text)

结果:
https://img02-xusong.taihe.com/6FFCC0FC-439F-464A-996A-605F8D304F59.png

Goldrepo 发表于 2022-5-11 00:51


那就奇怪了,我随便写了个获取的方法,都能正常拿到返回的内容

aiyamaya 发表于 2022-5-11 00:55

Goldrepo 发表于 2022-5-11 00:51
那就奇怪了,我随便写了个获取的方法,都能正常拿到返回的内容

那这是为什么啊?浏览器能下载 说明ip没有被封
可以用request就是拿不到 一直报404:'(weeqw

aiyamaya 发表于 2022-5-11 00:58

平淡最真 发表于 2022-5-11 00:46
import requests

url="https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls ...

resp.text和resp.content我都试过 两个都是404:@

aiyamaya 发表于 2022-5-11 01:02

为了验证不是被封ip 我还特地换了数据流量 重启网卡 结果还是返回404
但浏览器一直能正常下载{:1_909:}

Goldrepo 发表于 2022-5-11 01:47

aiyamaya 发表于 2022-5-11 00:55
那这是为什么啊?浏览器能下载 说明ip没有被封
可以用request就是拿不到 一直报404

有试过别的链接也是404吗?还是别的链接是正常的,如果别的链接正常的,那检查下你的编译器是不是加了什么拦截了,或者request版本看下

d8349565 发表于 2022-5-11 08:51

https://curlconverter.com/
快速获取请求头

aZunSir 发表于 2022-5-11 09:01

没有加header头,也可以正常请求到

aiyamaya 发表于 2022-5-11 09:35

aZunSir 发表于 2022-5-11 09:01
没有加header头,也可以正常请求到

上面两位老师也是简单请求就可以正常响应,但我这边就是不行,版本是对的,浏览器访问均正常,m3u8文件获取正常,就是key文件404!
页: [1] 2
查看完整版本: 求助各位大神解决下爬取文件失败的问题