好友
阅读权限10
听众
最后登录1970-1-1
|
本帖最后由 Solowang 于 2024-3-27 11:34 编辑
1、jieba 是目前表现较为不错的 Python 中文分词组件,它主要有以下特性:- 中文文本需要通过分词获得单个的词语
- jieba需要额外安装
- jieba库提供三种分词模式
2、jieba库支持三种分词模式:精确模式、全模式、搜索引擎模式、并且支持繁体分词,以及自定义词典。具体介绍:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
一、安装
我主要使用的软件有Anaconda,Pycharm等,看过我之前文章的大佬们,相信对Anaconda都有一个简单的了解,这里就不一一叙述了,直接安装。
因为jieba库不是Anaconda中自带的,所以需要我们自己下载,
1、首先进入jieba库官网:https://pypi.org/project/jieba/#files 点击官网中文件下载即可
2、 将压缩包解压到anaconda的pkgs目录。
3、打开anaconda prompt,切换目录至比如我的D:/anaconda/pkgs/jieba-0.42,输入cmd进入命令行模式执行 python setup.py install 即可。
打开pycharm 创建一个项目 pip install jieba import jieba接下来是jieba库的使用
1、精确模式
精确模式分析是不存在冗余数据的,把完整的text文本按照中文词库的标准完成拆分。
[Python] 纯文本查看 复制代码 import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
2、全模式
全模式与精确模式的不同在于,全模式存在冗余数据,是将存在可能的词语全部切分出来,从第一个字到最后一个字遍历作为词语第一个字。例如:以“吉”开头的词语包括“吉林”,“吉林省”,以“长”开头的名词包括“长春”“长春市”等等。[Python] 纯文本查看 复制代码 seg_list = jieba.cut("我来到吉林省长春市高新技术产业开发区光谷大街1188号", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
3、搜索引擎模式
搜索引擎模式是将精确模式中的长词,再次按照全模式切分。[Python] 纯文本查看 复制代码 seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))
二、使用语法对词组的基本操作添加:[Python] 纯文本查看 复制代码 str = "你好呀,我叫嘿嘿!多多关照!"
jieba.add_word("你")
print(jieba.lcut(str))
删除:[Asm] 纯文本查看 复制代码 str = "你好呀,我叫嘿嘿!多多关照!"
jieba.del_word("嘿嘿")
print(jieba.lcut(str))
调整词出现的频率:[Python] 纯文本查看 复制代码 str = "你好呀,我叫嘿嘿!多多关照!"
jieba.suggest_freq(("嘿", "嘿"), True)
print(jieba.lcut(str))
暂时先到这 慢慢在继续补充 python 新手。希望可以会更多 积少成多!!!
|
免费评分
-
查看全部评分
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|