小小的石头13 发表于 2021-9-6 14:19

乱码问题

本帖最后由 小小的石头13 于 2021-9-6 14:21 编辑

如题python爬虫返回的数据乱码了:
不知道怎么解码

hzw112233 发表于 2021-9-6 14:38

这个应该是用ISO8859-1读取GBK导致的,转码就行

magicianly 发表于 2021-9-6 14:28

这明显是乱码了,还怎么解?你在二进制里面取页面的编码格式,然后用那个编码格式解析就不会出这种问题了

mokson 发表于 2021-9-6 14:30

ofo 发表于 2021-9-6 14:38

加密了,解密还原

小小的石头13 发表于 2021-9-6 14:41

hzw112233 发表于 2021-9-6 14:38
这个应该是用ISO8859-1读取GBK导致的,转码就行

谢谢!确实可以了,但什么是ISO8859-1,还有其他的吗?

dingyx99 发表于 2021-9-6 14:45

小小的石头13 发表于 2021-9-6 14:41
谢谢!确实可以了,但什么是ISO8859-1,还有其他的吗?

ISO 8859-1,正式编号为ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言”,是国际标准化组织内ISO/IEC 8859的第一个8位字符集。它以ASCII为基础,在空置的0xA0-0xFF的范围内,加入96个字母及符号,藉以供使用附加符号的拉丁字母语言使用。曾推出过 ISO 8859-1:1987 版。

ISO-8859-1的别名有: iso-ir-100, csISOLatin1, latin1, l1, IBM819. Oracle数据库称WE8ISO8859P1。

Guation 发表于 2021-9-6 16:39

乱码肯定是编码问题 你得先去查一下被爬的网站使用的是什么编码 你得用相同的编码去读 之后再转码成你需要的编码保存下来
页: [1]
查看完整版本: 乱码问题