Linux 脚本编写过程中字符串编码转换问题

dmmtongyong 发表于 2021-3-24 17:16

本帖最后由 dmmtongyong 于 2021-3-25 21:07 编辑

求助各位大神：
本人Linux 初学。在编写SVN脚本hooks/pre-commit 过程中，有个命令（提交SVN日志中输入内容是“更新测试”）输出到文件中内容是{U+66F4}{U+65B0}{U+6D4B}{U+8BD5}
如何获得中文的内容呢

Eaglecad 发表于 2021-3-24 18:46

这是unicode码，就看你想要什么样的码。可以设置系统编码，文件编码

爱飞的猫 发表于 2021-3-24 19:56

node js:

```js
unescape('{U+66F4}{U+65B0}{U+6D4B}{U+8BD5}'.replace(/\{U\+(....)}/g, '%u$1'))
```

你可以搭配其他语言写的脚本把文字转码然后处理。

dmmtongyong 发表于 2021-3-24 20:28

Eaglecad 发表于 2021-3-24 18:46
这是unicode码，就看你想要什么样的码。可以设置系统编码，文件编码

文件里直接存的是中文的是啥码？需要怎么去转换

dmmtongyong 发表于 2021-3-24 20:31

jixun66 发表于 2021-3-24 19:56
node js:

```js

谢谢回复，这个思路我也想过。但是想找下比较常规的方法。。。但是自己不是很会linux shell。。。

dmmtongyong 发表于 2021-3-24 20:34

这个是文件信息与文件内容

Eaglecad 发表于 2021-3-25 00:37

dmmtongyong 发表于 2021-3-24 20:28
文件里直接存的是中文的是啥码？需要怎么去转换

在终端 locale -a看看系统设置的编码，再vim进文件，查看文件编码，具体可百度“linux下查看文件编码及修改编码”相关文章看看。主要还是各个系统，编码不一致导致的

Cool_Breeze 发表于 2021-3-25 18:44

只有想办法转码了！或者在写入之前把字符串解码为二进制，然后写入二进制文件

dmmtongyong 发表于 2021-3-25 21:06

根据各位大神的帮助，结合网上的一些资料，最终进行的是主要如下处理：
LANG=zh_CN.UTF-8
LOG_MSG=`echo $LOG_MSG | sed -r 's/\{U\+({4})\}/\\\u\1/g' `
LOG_MSG=`printf $LOG_MSG `

对里面类似{U+66F4}的部分进行替换，替换成\u66F4。这样printf 后的是就是中文的。

页: [1]

吾爱破解 - 52pojie.cn's Archiver

Linux 脚本编写过程中字符串编码转换问题