吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1279|回复: 13
收起左侧

[求助] 求助各位大神解决下爬取文件失败的问题

  [复制链接]
aiyamaya 发表于 2022-5-11 00:07
本帖最后由 aiyamaya 于 2022-5-11 00:12 编辑

目标:爬取某个网站上的key.key文件
[HTML] 纯文本查看 复制代码
https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls/key.key
实验步骤:1、用浏览器直接访问该文件,可下载;
                  2、用requests.get()直接抓取,失败;
                  3、构造header中的UA,失败;
                  4、浏览器F12,发现“Sec-Fetch-系列头部,加入相关构造,失败!!!
构造header代码:
[Python] 纯文本查看 复制代码
head_key = {"Host":"hey07.789zy.cc",
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0",
"Origin":"https://www.ikanjushe.xyz",
"Connection":"keep-alive",
"Sec-Fetch-Dest":"document",
"Sec-Fetch-Mode":"navigate",
"Sec-Fetch-Site":"none",
"Sec-Fetch-User":"?1",
"Upgrade-Insecure-Requests":"1",
"Connection":"keep-alive"}

请求代码:
[Python] 纯文本查看 复制代码
resp = requests.get(url,headers=head_key)
    print(resp.request.headers)
    print(resp.request.body)
    print(resp.content)



恳请各位大神劳神解惑,非常感谢!


requests返回值

requests返回值

文件下载页F12截图

文件下载页F12截图

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
为之奈何? + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

平淡最真 发表于 2022-5-11 00:46
[Python] 纯文本查看 复制代码
import requests

url="https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls/key.key"
headers = {
    'Host': 'hey07.789zy.cc',
    'Connection': 'keep-alive',
    'Pragma': 'no-cache',
    'Cache-Control': 'no-cache',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}

ret=requests.get(url=url, headers=headers)

print(ret.text)


结果:

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
aiyamaya + 1 + 1 级别不够,好像只能加一次,一次各1分,非常感谢

查看全部评分

Goldrepo 发表于 2022-5-11 00:51
图片.png
那就奇怪了,我随便写了个获取的方法,都能正常拿到返回的内容

 楼主| aiyamaya 发表于 2022-5-11 00:55
Goldrepo 发表于 2022-5-11 00:51
那就奇怪了,我随便写了个获取的方法,都能正常拿到返回的内容

那这是为什么啊?浏览器能下载 说明ip没有被封
可以用request就是拿不到 一直报404
 楼主| aiyamaya 发表于 2022-5-11 00:58
平淡最真 发表于 2022-5-11 00:46
[mw_shl_code=python,true]import requests

url="https://hey07.789zy.cc/20220509/hSg0IKP9/1100kb/hls ...

resp.text和resp.content我都试过 两个都是404
 楼主| aiyamaya 发表于 2022-5-11 01:02
为了验证不是被封ip 我还特地换了数据流量 重启网卡 结果还是返回404
但浏览器一直能正常下载
Goldrepo 发表于 2022-5-11 01:47
aiyamaya 发表于 2022-5-11 00:55
那这是为什么啊?浏览器能下载 说明ip没有被封
可以用request就是拿不到 一直报404

有试过别的链接也是404吗?还是别的链接是正常的,如果别的链接正常的,那检查下你的编译器是不是加了什么拦截了,或者request版本看下
d8349565 发表于 2022-5-11 08:51
https://curlconverter.com/
快速获取请求头
image.png
aZunSir 发表于 2022-5-11 09:01
没有加header头,也可以正常请求到

1.png
 楼主| aiyamaya 发表于 2022-5-11 09:35
aZunSir 发表于 2022-5-11 09:01
没有加header头,也可以正常请求到

上面两位老师也是简单请求就可以正常响应,但我这边就是不行,版本是对的,浏览器访问均正常,m3u8文件获取正常,就是key文件404!
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 13:16

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表