吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 879|回复: 2
收起左侧

[学习记录] 检测编码类型-python

[复制链接]
甜萝 发表于 2022-11-3 19:01
本帖最后由 paypojie 于 2022-11-4 00:01 编辑

                                                                   用 chardet.detect()方法检测bytes的编码类型



第一步    在命令行下输入pip install chardet    并且按下回车键(Enter)


image.png


然后导入chardet这个第三方库     第一行代码   import chardet
[Python] 纯文本查看 复制代码
import chardet

data = '床前明月光,疑是地上霜'.encode('utf-8')
c = chardet.detect(data)
print(c)

print(chardet.detect('离离原上草一岁一枯荣'.encode('utf-8')))

data = '离离原上草一岁一枯荣'.encode('utf-8')
print(chardet.detect(data))

c = chardet.detect('离离原上草一岁一枯荣'.encode('utf-8'))
print(c)

# 分别用三行代码 一行代码 两行代码 两行代码 来检查编码类型 发现是utf-8的编码  confidence表示检测概率 1为100% 因为是0.99 所以检测概率是99%

# -------------------------------------------------------------------------------------------------------------

data = '床前明月光,疑是地上霜'.encode('gbk')
c = chardet.detect(data)
print(c)

print(chardet.detect('离离原上草一岁一枯荣'.encode('gbk')))

data = '离离原上草一岁一枯荣'.encode('gbk')
print(chardet.detect(data))

c = chardet.detect('离离原上草一岁一枯荣'.encode('gbk'))
print(c)

# 分别用三行代码 一行代码 两行代码 两行代码  (代码行数取决于 赋值给变量or不赋值给变量) 来检测编码类型 发现是gbk的编码 date是简体中文 检测概率是gbk编码的为74%
# chardet.detect()方法易用 用该方法检测编码类型非常的简单方便

image.png




一些个人想法 关于是先定义变量名 然后写功能代码赋值给变量
还是先实现功能 再赋值给变量
还是采取混合方式 比如第一行定义变量 后面写功能代码 第二行 又改为写功能代码 再赋值给变量
或者第一行写功能代码 然后赋值给变量 第二行定义变量 后面写功能代码
可能 我这样描述不好理解 用实际例子来实现上面描述的内容

比如第一种写法

d
=
1

顺序是先定义变量名d 然后写= 最后写1

第二种写法

1
=
d

顺序是先写1 然后在1的左边写等于号 然后在等于号的左边写变量名

第三种写法就是第一种加上第二种的写法 采用混合方式 时而第一种写法 时而第二种写法

感觉有点讲不清 可能要录视频才能讲的明白

个人认为一种写法 做不到看到变量名见名知意 第二种写法 先实现功能 再赋值给变量 蛮好的 第三种 不知道怎么说
这是写代码的习惯 我一般采用第一种写法




发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

sgbyg 发表于 2022-11-3 19:27
可以检测爬取到的数据的编码吗
 楼主| 甜萝 发表于 2022-11-3 23:11
sgbyg 发表于 2022-11-3 19:27
可以检测爬取到的数据的编码吗

爬虫 我还不会 所以无法解答你这个问题
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 03:32

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表