djyyy音乐网站音乐下载地址分析
哈哈哈,最近刚学爬虫,入门为了练手,跟音乐网站干上了:lol准备工作:
1、网站地址:https://www.djyyy.com/
2、python 3.9
3、pycharm
4、360浏览器
一、分析网站源码找音乐地址
打开地址:https://www.djyyy.com/play/40881.html
调出调试窗口
发现音乐地址:
https://dj.djyyy.com:446/myxc/2019/11/29/%E5%A4%9C%E5%9C%BA%E5%8C%85%E6%88%BF%E7%A5%9E%E4%BB%99%E6%B0%B4%E5%A5%B6%E8%8C%B6%E9%A3%98%E9%A3%98%E4%B8%8A%E5%A4%B4%E4%B8%B2%E7%83%A7.2s3e9a1z12.m4a
还是很简单嘛,这个网站并没有设反调试什么的,一下子就找到,直接下载就好,感觉没有什么,想着放弃了,在看一下他是怎么来的
看一下源代码,是不是把播放地址直接放在源码里面的
发现一个可疑之处
<script type="text/javascript" src="/i/static/cmp/url.php?id=22764"></script>
居然打不开{:1_904:}{:1_904:}{:1_904:}{:1_904:}{:1_904:}
二、再次扑包分析
果然这个就是我们想要地址,把地址拼起来就可以了
https://dj.djyyy.com:446
三、请求音乐下载地址
访问不了,难道是cookies有问题,看一下
PHPSESSID这是什么玩意:度娘了一下
Session 的生命周期Session 在以下情况会被删除,也就是失效:
[*]Session 超时,超时指的是连续一定时间服务器没有收到该 Session 所对应客户端的请求,并且这个时间超过了服务器设置的 Session 超时的最大时间;
[*]程序调用方法主动销毁 Session;
[*]服务器关闭或服务停止。
与这个一模一样,那就是说,请求这个页面获取值,然后带上这个值在访问,
还是不对,难道我写错了,检测了一下代码,也没有问题呀{:1_904:}
来路不对,来路不对,来路不对,难道是!!!来路的问题{:1_904:}
我在把那个cookies去掉试一下
:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq:wwqwq自己把自己蠢哭了,有没有跟我一样的人,绕了这么一个大圈圈,来路:wwqwq来路:wwqwq来路人家都提醒我了:wwqwq 然而你写了那么多,我一个IDM从该页面下载音频就下载下来了!
[手动狗头]:lol:lol 加油,
有时候只是高估了开发者,
并不是完全你的错。。。 izhuoe 发表于 2021-11-8 17:40
然而你写了那么多,我一个IDM从该页面下载音频就下载下来了!
[手动狗头]
你这就很离谱了这不是分析原理嘛 虽然看不懂,但我觉得,是不是所有付费音乐都轻松下载下来? 不错,但是 这是正常的,越复杂的网站,经常忽略这种简单的东西,养成习惯Referer一定加上 涛之雨 发表于 2021-11-8 17:26
加油,
有时候只是高估了开发者,
并不是完全你的错。。。
谢谢涛哥:lol{:1_893:}我会努力的 Prozacs 发表于 2021-11-8 17:31
这是正常的,越复杂的网站,经常忽略这种简单的东西,养成习惯Referer一定加上
嗯嗯:lol下次我会注意的 不懂还用最简单的 猫爪下载不香吗