漁滒 发表于 2021-6-18 22:56

某网站字幕加密的wasm分析

@(某网站字幕加密的wasm分析)
## js层动态分析
网站地址:aHR0cHM6Ly93d3cuaXEuY29tL3BsYXkvMmZhcWJkMTV1YWM=(需要【台】的ip)

首先打开网址,f12 抓包开起来,播放视频后在过滤器中搜索【.xml】



可以看到sub标签里面的字幕内容被加密了,先给字幕下一个xhr断点



这里可以看到当字幕文件加载完成后,会执行t函数,跟进去


这里可以看到对字幕文件进行简单的解析,还没开始进行解密,当解析完成后会执行changeSuccess函数,继续跟下去



这里继续往下,p参数这一行有一个分之,查看p的值是1,说走前面的代码。然后有一个a._encrypt.show()引起了注意,从这里继续跟进去



这里跟着执行setStyle函数,继续跟下去



前面进行了一大段的计算,和函数名相符,这里设置了一些字幕的样式,但是还没有涉及字幕本身的解密,最后的setText函数,看起来就和文本有关,有可能解密就在里面完成,那就继续跟进去看看



断点断下后就可以看到字幕的密文了,d参数就是需要解密的内容,复制去验证一下



确实可以在xml文件中找到这一段密文,接着就是看看调用到这段密文的函数



这里可以看到,调用了一个s函数后返回一个f,然后这个f就用来设置字幕的宽度。既然这个f能用来计算字幕的宽度,说明了s函数内部已经解密的明文,那么才能计算宽度的,说明要继续跟进s函数里面



这次跟进去后,发现并没有那么顺利,直接来到了call的函数,这是js层调用了wasm的一个函数的特征,如果需要继续分析的话,那么就得对wasm进行分析了。过滤器中搜索wasm文件下载下来。

## wasm初步处理

根据这篇文件的介绍[【一种Wasm逆向静态分析方法】](https://www.52pojie.cn/thread-962068-1-1.html),可以使用wabt工具【项目地址:(https://github.com/WebAssembly/wabt)】中的wasm2c,将wasm的二进制文件转换为c文件

```bash
wasm2c wasm.wasm -o wasm.c
```

此时可以得到wasm.c和wasm.h,然后将wabt项目内的wasm-rt.h,wasm-rt-impl.c,wasm-rt-impl.h三个文件放到同一个文件夹,通过gcc得到编译的o文件

```bash
gcc -c wasm.c -o wasm.o
```

此时的o文件就可以放进IDA进行反汇编分析了。如果觉得上面的步骤繁琐的话,可以使用逍遥一仙大佬封装的一键工具。可以直接将wasm得到o文件

(https://www.52pojie.cn/thread-1438499-1-1.html)


将最后得到的o文件加载到IDA中



加载完发现有两百多个函数,肯定不可能一个一个函数去分析。首先肯定是要先找到js层调用的是哪个函数,然后再重点去分析对应的函数


## 浏览器动态分析与IDA静态分析合作
回到浏览器,call函数的第一个参数就是指明需要调用wasm中的哪个函数


可以看到函数名是monalisa_get_line_number,但是在wasm中的函数名称窗口搜索,却搜索不到这个函数,因为这个只是js层的函数名,还要看是绑定在wasm中的哪个导出函数,在同一个js文件中搜索这个函数名



这时就可以清楚的看到是wasm中的v函数



有了函数名,现在还需要知道分别传入的参数是什么,这里就要回到前面的s函数了

第一个参数n是前面获取的一个上下文,搜索一下这个_ctx



可以看到ctx是通过moAlloc函数获取的,相当于monalisa_context_alloc,看到alloc可以确定这是一个申请内存的c库函数,所以不需要继续分析,简单可以理解成申请一段内存,返回的是这段内存起始的指针

第二个参数就是字幕的密文字符串,第三个参数就是字符串的长度,第四个参数就是一段固定的字符串,那么这时可以将IDA的变量名改一下



字幕内容只有传入到w函数,其他都没有用到,那么就可以进入到w函数分析。回到浏览器,在w函数前面下一个断点断下来


这里可以看到这个函数传入了5个i32类型的参数,但是IDA识别的不正确



这时可以在函数名右键,设置项目类型,修改成正确的,顺便将变量名修改一下



跟着就来到了w2c_f24函数




这里可以看到返回值就是w2c_J,从js中可以查看到,又是一个申请内存的函数,然后就是w2c_f93函数


第一个参数就是前面刚刚申请的内存,说明极大可能是用来放函数的返回值,并且将密文传了进去,说明这个函数肯定是一个关键点,那么来看看返回值是什么,首先单步进入函数



第一个参数是一个指针,地址是6066376,然后直接结束这个函数,然后去查看这个地址


可以看到一段16字节的内容,仔细观察一下其实可以发现,这个函数实际就是把密文进行了base64解码


但是接下来静态分析并不能知道v11的值,所以继续在浏览器单步运行



可以看到浏览器跟着运行的是call $func71,继续跟进去。w2c_f24是申请内存,前面已经分析过了,然后是w2c_f23



直接去到函数的结尾,函数的返回值就是第一个参数,实际上这个函数就是在做内存的复制


复制后的内存就只有w2c_f95用到,那么就肯定要跟进去这个函数


进到w2c_f95后发现并没有那么顺利,里面只有w2c_f94和w2c_f149,里面的运算都比较复杂,这时我卡壳了。

## c层aes算法特征分析
解密的话常见的就三种情况,异或加位运算、对称加密以及非对称加密。这个时有个地方引起了我的注意



128、192、256这三个数字不就是aes算法的三种密钥长度,如果推论为加密用的是aes的话,那么里面的a4a与v40又恰好可以认为是密文的密钥长度和轮换次数。再去xml里面看一下密文,果然密文全部都是16字节的倍数,那么就已经可以确定是用的aes算法了



知道了算法以后,还需要知道几个关键的值,分别是密钥及其长度,算法模式,偏移。密钥长度可以看到就是a5,它分别和128、192、256进行对比,a5是传进去来参数,是固定的128,那么现在还剩下密钥、算法模式、偏移

接下来需要寻找密钥,根据文章【[常见加密算法](http://www.codinganswer.com/?yohytk=skmhl1&ektovs=8azel2)】中的讲述,aes算法首先通过的是initial_round,然后是9个rounds,接着最后一个round少一个步骤


进入w2c_f149,其中的a4就是前面传进来的轮换次数10



可以看到每次循环自减1,一共轮换9次,剩下的是第十次,这与算法完全吻合,但是key应该在哪里获取呢,可以看到initial_round步骤就用到了key,这时自然就想到了w2c_f149前面的w2c_f94





从高级加密标准AES-FIPS197中可以知道,initial_round执行的就是轮密钥加(AddRoundKey( ))变换,这是需要与密钥进行异或,那么就肯定要先把密钥取出来,自然想到一开始的循环就是将密钥取出来,然后进行异或,这里的a1就是前面传进来的值,先在浏览器看看密钥是什么,也就是w2c_f94的第一个参数




不知道哪里来的一段16字节,不管那么多,先试试能不能解密,现在还没有iv,所以先用ECB的模式试试

```python
def decrypt_zimu():
    enc_text = 'by5JecM7CKHaHHUd0C2wupB2A/X+CE2JRSbc8LK9p/U='
    crypto = AES.new(key=bytes(), mode=AES.MODE_ECB)
    print(crypto.decrypt(base64.b64decode(enc_text.encode())).decode(errors='ignore'))
    # 怎麼樣啊 醫t6x
```

可以看到前16字节可以解密,但是后面的无法解密,说明模式错了,应该是CBC,那么这时还需要一个正确的iv,不然前16字节是错误的。CBC的iv是在最后进行异或的,自然想到了最后的一段函数


那么这里的a2就是偏移,和密钥一样去浏览器获取,可以知道16字节都是0,加上iv重新解密

```python
def decrypt_zimu():
    enc_text = 'by5JecM7CKHaHHUd0C2wupB2A/X+CE2JRSbc8LK9p/U='
    crypto = AES.new(key=bytes(), mode=AES.MODE_CBC, iv=bytes())
    print(unpad(crypto.decrypt(base64.b64decode(enc_text.encode())), AES.block_size).decode())
    # 怎麼樣啊 醫生
```

这时就完全解密出字幕了,接下来如果能知道key怎么来的,那么就大功告成了。

密钥的参数一直往外追,实际是v函数的第一个参数偏移4,也就是一开始的ctx偏移4,那么就是说在执行解密之前,执行了其他函数来设置了密钥,因为不可能申请内存里面就有密钥了。这时可以将除了内存处理之外的所有导出函数都下一个断点,在这个wasm中就是所有monalisa开头的导出函数,然后刷新,会在_monalisa_set_license的地方断下



这个函数的第一个参数也传入了ctx,这里的参数可以在dash接口里面找到


继续让这个函数运行,接着就在前面的函数断下了,那就充分说明这个就是获取密钥的函数,接下来也按照前面的方法,找函数,一步一步分析,那么理论上就可以获取到密钥了,但是实际并没有那么简单,中间分析的过程就忽略了,因为和上面是大同小异。当我分析到w2c_f129的时候,这个函数结束,密钥生生成了,但是这个函数超长,仅仅定义变量就有1000多个,这明显加了混淆了。

既然不能直接分析出算法,那么能不能用魔法来打败魔法呢?nodejs可以加载wasm运行,如果可以调用nodejs来得到密钥,那不就可以省下很多功夫了。

## wasm调用代码扣取与异步加载处理
一般网页加载wasm的话,都有一个对应名称的js,把与wasm同名的js下载下来,并且与wasm放在同一文件夹内


下载格式化后发现,这个Module被放到一个自执行函数的里面,那么外部就无法调用,那么就需要将这个自执行函数的代码放到外面,让全局中可以找到Module这个变量,注释头尾部分内容,就可以获取到Module

```javascript
// var Monalisa = (function() {
//   var _scriptDir = typeof document !== 'undefined' && document.currentScript ? document.currentScript.src : undefined;
//   if (typeof __filename !== 'undefined')
//         _scriptDir = _scriptDir || __filename;
//   return (function(Monalisa) {
//         Monalisa = Monalisa || {};
      Monalisa = {};

      var Module = typeof Monalisa !== "undefined" ? Monalisa : {};
      var readyPromiseResolve, readyPromiseReject;
      Module["ready"] = new Promise(function(resolve, reject) {
            readyPromiseResolve = resolve;
            readyPromiseReject = reject
      }
      );
      var moduleOverrides = {};
      var key;
      for (key in Module) {
            if (Module.hasOwnProperty(key)) {
                moduleOverrides = Module
            }
      }
                /*
                中间省略几千行               
                */
      Module["run"] = run;
      if (Module["preInit"]) {
            if (typeof Module["preInit"] == "function")
                Module["preInit"] = ];
            while (Module["preInit"].length > 0) {
                Module["preInit"].pop()()
            }
      }
      noExitRuntime = true;
      run();

      // return Monalisa.ready
    // }
    // );
// }
// )();
// if (typeof exports === 'object' && typeof module === 'object')
//   module.exports = Monalisa;
// else if (typeof define === 'function' && define['amd'])
//   define([], function() {
//         return Monalisa;
//   });
// else if (typeof exports === 'object')
//   exports["Monalisa"] = Monalisa;
console.log(Module);
```

接下来就是尝试调用_monalisa_set_license方法来获取密钥了,安装js的方法,首先获取一个ctx,前面有说过,然后是调用_monalisa_set_license方法

```javascript
console.log(Module);
function decrypt() {
    var ctx = Module["cwrap"]("monalisa_context_alloc", "number", [])();
    var License = "AA4ACgMAAAAAAAAAAAQCDwACATADEAAnAgAgeyWysVa0GpbmCNvd+S1tsL6yp/j2tbA14sqW1ppgepYCAAAAAxEANwEAMDCtrqLHyZQ7p8RX3ih4NIqLWR1zCfu3mMFlxC2kiPgHmxZY7I/KYq4pMkH3rZQsqgEAAgD/EgAkAQAAIGSSUL7C0qWJp/LIkKoS12QYws1e0z/CewNJaaqktC3z";
    Module["cwrap"]("monalisa_set_license", "number", ["number", "string", "number", "string"])(ctx, License, License.length, "0");

    console.log(new Buffer.from(Module.HEAPU8.slice(ctx+4, ctx+4+16)).toString('hex'))
}
decrypt();
```

但是出现报错了

```bash
                  throw ex
                  ^

TypeError: Cannot read property 'D' of undefined
```

说js中的D函数还没有定义,实际这是一个异步加载的wasm,当我们运行到解密函数的时候,实际上wasm还没有加载完。对于异步加载的wasm,有两个重要的参数runtimeInitialized和runtimeExited,一个代表wasm的加载时机,完成加载则会变成true;runtimeExited是wasm的卸载时机,完成卸载则会变成true。

既然后异步加载的,那么就可以设置一个定时器来监控runtimeInitialized的值,当期变为true时,再执行解密函数

```javascript
console.log(Module);
function decrypt() {
    var ctx = Module["cwrap"]("monalisa_context_alloc", "number", [])();
    var License = "AA4ACgMAAAAAAAAAAAQCDwACATADEAAnAgAgeyWysVa0GpbmCNvd+S1tsL6yp/j2tbA14sqW1ppgepYCAAAAAxEANwEAMDCtrqLHyZQ7p8RX3ih4NIqLWR1zCfu3mMFlxC2kiPgHmxZY7I/KYq4pMkH3rZQsqgEAAgD/EgAkAQAAIGSSUL7C0qWJp/LIkKoS12QYws1e0z/CewNJaaqktC3z";
    Module["cwrap"]("monalisa_set_license", "number", ["number", "string", "number", "string"])(ctx, License, License.length, "0");

    console.log(new Buffer.from(Module.HEAPU8.slice(ctx+4, ctx+4+16)).toString('hex'))
}

var timer = setInterval(c, 1);
function c() {
    if (runtimeInitialized){
      clearInterval(timer);
      decrypt()
    }
}
```

这时就可以正确获取到密钥,这时只要将License修改为process.argv,就可以在命令行调用了

```javascript
function decrypt() {
    var ctx = Module["cwrap"]("monalisa_context_alloc", "number", [])();
    var License = process.argv;
    Module["cwrap"]("monalisa_set_license", "number", ["number", "string", "number", "string"])(ctx, License, License.length, "0");

    console.log(new Buffer.from(Module.HEAPU8.slice(ctx+4, ctx+4+16)).toString('hex'))
}

var timer = setInterval(c, 1);
function c() {
    if (runtimeInitialized){
      clearInterval(timer);
      decrypt()
    }
}
```

```python
def decrypt_zimu():
    License = "AA4ACgMAAAAAAAAAAAQCDwACATADEAAnAgAgeyWysVa0GpbmCNvd+S1tsL6yp/j2tbA14sqW1ppgepYCAAAAAxEANwEAMDCtrqLHyZQ7p8RX3ih4NIqLWR1zCfu3mMFlxC2kiPgHmxZY7I/KYq4pMkH3rZQsqgEAAgD/EgAkAQAAIGSSUL7C0qWJp/LIkKoS12QYws1e0z/CewNJaaqktC3z";
    nodejs = os.popen('node libmonalisa-v3.0.6-browser '+License)
    key = nodejs.read().replace('\n', '')
    nodejs.close()
    enc_text = 'by5JecM7CKHaHHUd0C2wupB2A/X+CE2JRSbc8LK9p/U='
    crypto = AES.new(key=bytes.fromhex(key), mode=AES.MODE_CBC, iv=bytes())
    print(unpad(crypto.decrypt(base64.b64decode(enc_text.encode())), AES.block_size).decode())
    # 怎麼樣啊 醫生
```

完美,正确解密出结果,同一个字幕文件,所使用的所有key都是一样的,也就是说调用一次获取密钥,就可以解密出一整个字幕文件了

完结,散花


## 参考文献
1.XXX视频cKey9.1的生成分析和实现:https://www.52pojie.cn/thread-948353-1-1.html
2.一种Wasm逆向静态分析方法:https://www.52pojie.cn/thread-962068-1-1.html
3.wasm一键转c:https://www.52pojie.cn/thread-1438499-1-1.html
4.高级加密标准AES-FIPS197:https://wenku.baidu.com/view/2ce7a11b10a6f524ccbf8514.html
5.常见加密算法:http://www.codinganswer.com/?yohytk=skmhl1

ofo 发表于 2021-6-18 23:13

这长好的教程,wasm相关的书买了好几本了,就是看不进去

爱飞的猫 发表于 2021-6-22 07:30

样本地址:

https://static.iqiyi.com/js/common/libmonalisa-v3.0.6-browser.js
https://static.iqiyi.com/js/common/libmonalisa-v3.0.6-browser.wasm

songxp03 发表于 2021-6-18 23:48

wasm的视频教程买了好多,以为这种编译好的字节码破解不了呢

侃遍天下无二人 发表于 2021-6-19 00:13

这篇应该上精华,想不到爱奇艺tw也开始上wasm了

xuepojie 发表于 2021-6-19 00:51

很不错的分享,谢谢楼主!

gjwq258 发表于 2021-6-19 07:32

得好好学习一下的说,谢谢

nanaqilin 发表于 2021-6-19 09:09

太复杂了,看不懂啊,不过还是谢谢楼主无私的分享

无言Y 发表于 2021-6-19 09:27

学习一下

侃遍天下无二人 发表于 2021-6-19 09:34

侃遍天下无二人 发表于 2021-6-19 00:13
这篇应该上精华,想不到爱奇艺tw也开始上wasm了

果然上了

orb001 发表于 2021-6-19 10:38

牛掰格拉斯
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 某网站字幕加密的wasm分析