乱码问题
本帖最后由 小小的石头13 于 2021-9-6 14:21 编辑如题python爬虫返回的数据乱码了:
不知道怎么解码 这个应该是用ISO8859-1读取GBK导致的,转码就行 这明显是乱码了,还怎么解?你在二进制里面取页面的编码格式,然后用那个编码格式解析就不会出这种问题了 加密了,解密还原 hzw112233 发表于 2021-9-6 14:38
这个应该是用ISO8859-1读取GBK导致的,转码就行
谢谢!确实可以了,但什么是ISO8859-1,还有其他的吗? 小小的石头13 发表于 2021-9-6 14:41
谢谢!确实可以了,但什么是ISO8859-1,还有其他的吗?
ISO 8859-1,正式编号为ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言”,是国际标准化组织内ISO/IEC 8859的第一个8位字符集。它以ASCII为基础,在空置的0xA0-0xFF的范围内,加入96个字母及符号,藉以供使用附加符号的拉丁字母语言使用。曾推出过 ISO 8859-1:1987 版。
ISO-8859-1的别名有: iso-ir-100, csISOLatin1, latin1, l1, IBM819. Oracle数据库称WE8ISO8859P1。 乱码肯定是编码问题 你得先去查一下被爬的网站使用的是什么编码 你得用相同的编码去读 之后再转码成你需要的编码保存下来
页:
[1]