paxj168 发表于 2021-11-8 17:14

djyyy音乐网站音乐下载地址分析

哈哈哈,最近刚学爬虫,入门为了练手,跟音乐网站干上了:lol
准备工作:
    1、网站地址:https://www.djyyy.com/
    2、python 3.9
    3、pycharm
    4、360浏览器


一、分析网站源码找音乐地址




打开地址:https://www.djyyy.com/play/40881.html
调出调试窗口



发现音乐地址:
https://dj.djyyy.com:446/myxc/2019/11/29/%E5%A4%9C%E5%9C%BA%E5%8C%85%E6%88%BF%E7%A5%9E%E4%BB%99%E6%B0%B4%E5%A5%B6%E8%8C%B6%E9%A3%98%E9%A3%98%E4%B8%8A%E5%A4%B4%E4%B8%B2%E7%83%A7.2s3e9a1z12.m4a
还是很简单嘛,这个网站并没有设反调试什么的,一下子就找到,直接下载就好,感觉没有什么,想着放弃了,在看一下他是怎么来的




看一下源代码,是不是把播放地址直接放在源码里面的




发现一个可疑之处

<script type="text/javascript" src="/i/static/cmp/url.php?id=22764"></script>



居然打不开{:1_904:}{:1_904:}{:1_904:}{:1_904:}{:1_904:}

二、再次扑包分析




果然这个就是我们想要地址,把地址拼起来就可以了
https://dj.djyyy.com:446

三、请求音乐下载地址




访问不了,难道是cookies有问题,看一下





PHPSESSID这是什么玩意:度娘了一下




Session 的生命周期Session 在以下情况会被删除,也就是失效:

[*]Session 超时,超时指的是连续一定时间服务器没有收到该 Session 所对应客户端的请求,并且这个时间超过了服务器设置的 Session 超时的最大时间;
[*]程序调用方法主动销毁 Session;
[*]服务器关闭或服务停止。





与这个一模一样,那就是说,请求这个页面获取值,然后带上这个值在访问,




还是不对,难道我写错了,检测了一下代码,也没有问题呀{:1_904:}


来路不对,来路不对,来路不对,难道是!!!来路的问题{:1_904:}




我在把那个cookies去掉试一下





:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq自己把自己蠢哭了,有没有跟我一样的人,绕了这么一个大圈圈,来路:wwqwq来路:wwqwq来路人家都提醒我了:wwqwq

izhuoe 发表于 2021-11-8 17:40

然而你写了那么多,我一个IDM从该页面下载音频就下载下来了!

[手动狗头]:lol:lol

涛之雨 发表于 2021-11-8 17:26

加油,
有时候只是高估了开发者,
并不是完全你的错。。。

ldw471427015 发表于 2021-11-8 18:01

izhuoe 发表于 2021-11-8 17:40
然而你写了那么多,我一个IDM从该页面下载音频就下载下来了!

[手动狗头]

你这就很离谱了这不是分析原理嘛

车同学 发表于 2021-11-8 17:32

虽然看不懂,但我觉得,是不是所有付费音乐都轻松下载下来?

nx2008 发表于 2021-11-8 17:19

不错,但是

Prozacs 发表于 2021-11-8 17:31

这是正常的,越复杂的网站,经常忽略这种简单的东西,养成习惯Referer一定加上

paxj168 发表于 2021-11-8 17:34

涛之雨 发表于 2021-11-8 17:26
加油,
有时候只是高估了开发者,
并不是完全你的错。。。
谢谢涛哥:lol{:1_893:}我会努力的

paxj168 发表于 2021-11-8 17:35

Prozacs 发表于 2021-11-8 17:31
这是正常的,越复杂的网站,经常忽略这种简单的东西,养成习惯Referer一定加上

嗯嗯:lol下次我会注意的

tdj815 发表于 2021-11-8 17:37

不懂还用最简单的   猫爪下载不香吗

偶尔平凡 发表于 2021-11-8 17:58

页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: djyyy音乐网站音乐下载地址分析