Galgame汉化中的逆向（三）：自定义字库分析

小木曾雪菜 · 发表于 2020-7-4 16:53

本帖最后由小木曾雪菜于 2020-7-7 16:57 编辑

Galgame汉化中的逆向（三）：自定义字库分析

0x0 前言

上节谈了一下一般pc游戏的文字编码与系统字库的调用，
但是主机游戏和部分pc游戏通常自带字库，这些字库有的是标准格式，而有的则是自定义格式。
自定义格式字库通常由两种类型：tile font， texture font。

此篇教程将以一种不同寻常格式的texture font为例，谈谈如何来分析自定义字库。

上期：Galgame汉化中的逆向（二）：系统字库与文字编码
同样，本系列教程和隔壁，贴吧发的内容完全相同。

0x1 观察

此游戏字库很显然是font48.xtx，观看文件头xtx格式，后面的01是type。猜测再后面就是height，width，aligned height, aligned wight， offset相关的了（这里面有个坑人的地方是这游戏文件头是big endian，我看了好久才看出来）。

看到文件大小为900020h，结合数据猜测正文是0x20开始。

看着数据很规整，猜测没有压缩，但是查看纹理或者tile无论怎么看都很奇怪。
但是texture可以看出来大概几个数据块，所以很大可能是这个字库的数据流读取方式有问题，
我们需要找到这个字库读取顺序。

0x2 跟踪

游戏引擎将字库纹理以正确的字节流顺序载入，然后加载到显存里，由d9d9渲染到屏幕上。
可以从文本缓冲区入手，去跟踪d3d9了。
这部分说起来比较麻烦，因为是COM接口没有函数名称，非常需要耐心（对照d3d9.h来找）。
跟踪从d3d9.Direct3DCreate9开始，找到初始化ID3DXFont，然后再看调用栈找到字库读取函数。

由于arc_unpacker的大佬已经分析过了类似的字体，跟踪过程过于冗长我们跳过跟踪这步，直接用结论来进行了。

0x3 字库分析

此font48.xtx字库编码为GRAY4，每个字符为48X48，共8192个字符。 block为48字节，每个block含4个坐标。

字库读取代码

block_size = 48
intensity_map = (
        0b00000000, 0b00010001, 0b00100010, 0b00110011,
        0b01000100, 0b01010101, 0b01100110, 0b01110111,
        0b10001000, 0b10011001, 0b10101010, 0b10111011,
        0b11001100, 0b11011101, 0b11101110, 0b11111111)

def get_x(i, width, level): 
    # level means nesting times
    v1 = (level >> 2) + (level >> 1 >> (level >> 2))
    v2 = i << v1
    # 8X8 3f, 
    v3 = (v2 & 0x3F) + ((v2 >> 2) & 0x1C0) + ((v2 >> 3) & 0x1FFFFE00)
    return ((((level << 3) - 1) & ((v3 >> 1) ^ ((v3 ^ (v3 >> 1)) & 0xF))) >> v1)+  ((((((v2 >> 6) & 0xFF) + ((v3 >> (v1 + 5)) & 0xFE)) & 3)
            + (((v3 >> (v1 + 7)) % (((width + 31)) >> 5)) << 2)) << 3)

def get_y(i, width, level):
    v1 = (level >> 2) + (level >> 1 >> (level >> 2))
    v2 = i << v1
    v3 = (v2 & 0x3F) + ((v2 >> 2) & 0x1C0) + ((v2 >> 3) & 0x1FFFFE00)
    return ((v3 >> 4) & 1) + ((((v3 & ((level << 6) - 1) & -0x20)
            + ((((v2 & 0x3F)
                + ((v2 >> 2) & 0xC0)) & 0xF) << 1)) >> (v1 + 3)) & -2) + ((((v2 >> 10) & 2) + ((v3 >> (v1 + 6)) & 1)
            + (((v3 >> (v1 + 7)) // ((width + 31) >> 5)) << 2)) << 3)

def xtx_tex12gray(data, height, width, aligned_height, aligned_width):
    gray = np.zeros([width*2, height*2], dtype=np.uint8) # exchange width height

    print("%dX%d xtx, %d bytes-> %dX%d Gray"%(width, height, len(data), height*2, width*2 ))
    for i in range(height*width):
        abs_x = get_x(i, width, 2)
        abs_y = get_y(i, width, 2)
        if abs_y >= height or abs_x >= width:
            continue

        # each 2 byte containes 4 gray pixel
        idx = i * 2
        block_x = (abs_x // block_size) * block_size
        block_y = (abs_y // block_size) * block_size
        x = abs_x % block_size
        y = abs_y % block_size
        target_y = block_y + y
        target_x1 = block_x * 4 + x; # each block(48X48) has 4 cordinate
        target_x2 = block_x * 4 + x + block_size;
        target_x3 = block_x * 4 + x + block_size * 2;
        target_x4 = block_x * 4 + x + block_size * 3;
        gray[target_y][target_x1] = intensity_map[data[idx] >> 4]
        gray[target_y][target_x2] = intensity_map[data[idx] & 0xf]
        gray[target_y][target_x3] = intensity_map[data[idx+1] >> 4]
        gray[target_y][target_x4] = intensity_map[data[idx+1] & 0xf]
    return gray

逆向出来的核心代码就是这么多，读取字库中的每一个字节，然后确定这个字节转换为图中的坐标(get_x(i, ), get_y(i,))。
但是光看估计很多人会对求坐标值的一堆位运算劝退，那么这些匪夷所思的位运算是在干什么？

这个时候静态很难看出来位运算在干什么，这时候我们就可以用打表法来看看到底字节流都到了图上的哪里去了。
打好表后规律一目了然，这也是这个字库最有意思的地方。

打表法打印字节流顺序与像素位置关系

def showtable():
    width = 48
    height = 96
    lines = []
    for i in range(height*2):
        lines.append(width*2*[0])
    for i in range(width * height):
        x = get_x(i, width, 2)
        y = get_y(i, width, 2)
        lines[y][x] = str(i)
        print(i, y ,x)
    with open('position.csv', 'w', newline='') as fp:
        f_csv = csv.writer(fp)
        f_csv.writerows(lines)

用excel观看生产的表格，数字表示字库中的位置(i)，用不同颜色隔开相邻chunk。
图中元素每4X8个像素构成一个小chunk，然后4X4个小chunk构成了一个大chunk。
这是一种分形结构，level=2为分两次，也就是我们所说的套娃。
（怪不的位运算那么一坨乱七八糟的，所以才说禁止套娃呀#滑稽）

找到规律再检验一下，ok字库提取没问题，标准的完成版shift-jis字库。

0x4 重建字库

接下来的步骤就是重建字库了，重建分3 步：

(1) 建立简体字库的png图片，
(2) 修改fontmap或者将gb2312编码映射到sjis上，生成映射后的码表（.tbl）
(3) 将png转换为该游戏字库格式

现在来详细分析一下针对此游戏的方法：

（1）建立图片这个方法太多了，要求是每个字大小48X48，图大小6144X3072。
最简单的方法是用PIL的ImageFont打印，其中大小px要转换为pt。
（2）此游戏的fontmap我没找到，严重怀疑游戏是通过计算来得到的图中位置。
sjis编码的范围是程序里写死的，要改动涉及到的地方太多太麻烦。
本游戏的字库基本上是完整的sjis字库，从0x8140开始每个sjis字符包括不可打印字符都有（除了末尾的部分字符），
因此直接把gb2312按顺序映射到sjis编码即可，新建字符顺序是sjis但字符是简体字。
(3) 这部解包和封包差不多，只要把src和dst方向对调就行（当然宽高大小之类的参数要微调一下）

由于封包和解包算法非常相似，这里不再赘述，完整的程序可以参考我的github。
https://github.com/YuriSizuku/GalgameReverse/

0x5 后记

本文分析了一个比较奇怪的套娃字库，简单的演示了一下一般游戏涉及到自定义字库如何处理，

Galgame汉化本身也是一种有意思的逆向，但是相对来说讨论的不多,
我费了好大劲才写完这个帖子，希望能抛砖引玉给大家一些启发吧。

非常感谢github上的各位大神把工具都开源，这些都是很好的学习材料。

预告：下节将分析一个稍微有点难度的游戏加密和如何寻找密钥，此游戏会在堆上动态解压代码执行，并且用类似于JIT的方法来生成解密的shellcode。

Hmily · 发表于 2020-7-7 17:23

小木曾雪菜发表于 2020-7-7 17:13
已改完。
关于MD插件希望能加入代码行号显示。
建议md插件里加上插图按钮，我当时不知道可以和attach混 ...

先不考虑按钮添加的问题，你帮我看看这几句描述是否能看懂，有没有什么可以优化修改的地方，方便理解的https://www.52pojie.cn/forum.php ... 27&pid=27884270 。

小木曾雪菜 · 发表于 2020-7-7 17:13

Hmily 发表于 2020-7-7 16:58
前面的几篇也修改一下吧，另外MD的插件有什么疑问或者建议吗？我准备把这个大家经常遇到的问题写到插件上 ...

已改完。
关于MD插件希望能加入代码行号显示。
建议md插件里加上插图按钮，我当时不知道可以和attach混用，就上传玩附件再加入图片地址了。

hudongliang · 发表于 2020-7-4 17:06

感谢楼主的指导

SS级用户 · 发表于 2020-7-4 17:28

好评好评

000000YK · 发表于 2020-7-4 17:58

看看看看

ohmycene · 发表于 2020-7-4 19:34

谢谢大佬分享经验！学习一下看看！

kof888 · 发表于 2020-7-4 20:37

你好楼主，

这个软件是叫啥名啊，能提供一个吗？

樱花の风誓 · 发表于 2020-7-4 22:25

感谢楼主的指导

月柏柏 · 发表于 2020-7-4 23:15

不明觉厉

Fanoteria · 发表于 2020-7-5 02:58

kof888 发表于 2020-7-4 20:37
你好楼主，

借楼同问！这是啥软件

黑夜童心 · 发表于 2020-7-5 08:24

看着像某种内存读写器

帐号		自动登录	找回密码
密码			注册[Register]

[原创] Galgame汉化中的逆向（三）：自定义字库分析

Galgame汉化中的逆向（三）：自定义字库分析

0x0 前言

0x1 观察

0x2 跟踪

0x3 字库分析

0x4 重建字库

0x5 后记

免费评分

点评