小姐姐网站 (美之图) js逆向

Arcticlyc · 发表于 2022-9-25 22:31

本帖最后由 Arcticlyc 于 2022-11-9 08:28 编辑

起因
在论坛冲浪时发现有人分享了一个很nice的网站：https://mmzztt.com/，又看到有uu在问如何获取图片地址，因此对其进行研究并写下帖子记录。

提醒：该网站现已限制最多浏览15张图片，想看更多需要下载app
看见有人问这个是用来干嘛的，因为网站每个图集打开只能看到第一张图片，后面的图片链接无法直接得到，本帖是逆向网站js获取每个图集里的图片链接地址
*** 但是由于现在限制了只能看15张图片，所以其实也只能获取到前15张图片的链接，我感觉前15张图片没什么好看的，所以主要是找到js解密的关键代码并分享出来，大家想爬的可以自己写代码爬取，现在已经能够获取到图片的链接，其他的应该也不是很困难 ***

逆向过程
当我f12打开控制台的时候，真的是一脸懵逼，这混淆得我真的想哭！！！一眼看去没有一个知道是啥的变量，只能硬着头皮上了。

首先打开是一个自动debugger，这个直接找到断点的起始处，用本地替换过掉，然后开始分析。刚开始我完全是自己琢磨，一看图片既不在源代码也没有ajax请求，找了好久才发现是js解密后直接得出图片链接，又花了很长时间才找到加密关键处。

但是，由于这个坑爹的混淆(一句代码甚至占好久行)，我被引向了岔路，而且还搞了几个小时，最后本来打算放弃了，但是突然又发现已经有人分享过这个逆向方法了，一看，我中间那段找对了呀，于是重拾信心，根据原帖，修改(很小)部分代码，并测试成功。

原帖地址：http://www.konforever.xyz/2022/mmzztt-spider/

逆向分享
1. pid值，也就是网址后面的几个数字。
屏幕截图(34).png

2. 根据原帖，图片采用AES加密，其中解密需要用到cacheSign，这个参数在源代码中可以找到，不过现在的位数有所变化，我对代码进行了修改。

3. IV值的获取并没有变化，仍然是原来的算法。
屏幕截图(35).png

4. AES解密的密钥，key值的计算和原来不一样，经观察后面这一串字符应该是固定的，
屏幕截图(36).png

结束
至此该网站js逆向结束，顺便附上js解密部分的代码。

[Python] 纯文本查看 复制代码

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

from typing import List
import binascii
import json
 
import re
import requests
from lxml import etree
from Crypto.Cipher import AES
from Crypto.Hash import MD5
 
 
def decrypt(pid: str|int, cache_sign: str) -> List[str]:
    pid = int(pid)
    IV = "".join([str(pid % i % 9) for i in range(2, 18)]).encode()
    key = MD5.new((f"{pid}6af0ce23e2f85cd971f58bdf61ed93a6").encode()).hexdigest()[8:24].encode()
    aes = AES.new(key, AES.MODE_CBC, IV)
    result = aes.decrypt(binascii.a2b_hex(cache_sign)).rstrip()
 
    result = re.findall(r'(\[.*\])', result.decode())[0]
    return json.loads(result)
 
 
def get_cache_sign(pid: str|int) -> str|None:
    url = "https://mmzztt.com/photo/{}".format(pid)
    res = requests.get(url, headers={
        "referer": "https://mmzztt.com/",
        "user-agent": "Mozilla/5.0"
    })
    if res.status_code == 200:
        html = etree.HTML(res.text)
        return html.xpath("//body/comment()")[0].__str__()[68:-3]
 
if __name__ == '__main__':
    pid = ''
    res = get_cache_sign(pid)
 
    resp = decrypt(pid, res)
    print(resp)

Arcticlyc · 发表于 2024-3-25 11:45

gouzi123 发表于 2024-3-24 21:28
网站好像打不开了，是不是被爬太多了

需要代{过}{滤}理

rangersxiaoyan · 发表于 2022-12-6 17:54

提示: 作者被禁止或删除内容自动屏蔽

Arcticlyc · 发表于 2022-11-9 11:07

开创者发表于 2022-11-9 10:54
就是做个他这样的网站把图片保护起来，防小白

那应该就是学各种反爬虫的手段吧，各种加密、混淆，一般加一点js加密就能拦住很多没学过逆向的人吧，但是我对前端和js也不了解，不会做这些。或者像它这样做成app，用自用证书，我连证书校验都过不去，包也抓不到，更不用说爬虫了。

aspllh · 发表于 2022-9-25 23:20

太棒了，感谢!

DRLLL · 发表于 2022-9-25 23:43

很好用，可以可以

wujianbiao · 发表于 2022-9-25 23:47

多谢大佬！

xcz123m · 发表于 2022-9-26 00:01

学习了谢谢分享

wa2012 · 发表于 2022-9-26 00:41

谢谢楼主分享

MorN · 发表于 2022-9-26 00:50

不错，很强

wmk2000 · 发表于 2022-9-26 00:51

谢谢楼主分享

开创者 · 发表于 2022-9-26 05:04

这个方法要是能应该到我的网站就很不错，仿采集系数提高了

bj9ye666 · 发表于 2022-9-26 06:09

小姐姐我来也谢谢分享

帐号		自动登录	找回密码
密码			注册[Register]

rangersxiaoyan rangersxiaoyan 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	rangersxiaoyan 发表于 2022-12-6 17:54 吾爱破解论坛没有任何官方QQ群，禁止留联系方式，禁止任何商业交易。提示: 作者被禁止或删除内容自动屏蔽
	如何升级？如何获得积分？积分对应解释说明！
	回复支持举报

[Web逆向] 小姐姐网站 (美之图) js逆向

免费评分

本帖被以下淘专辑推荐: