jieba分词
本帖最后由 Solowang 于 2024-3-27 11:34 编辑1、jieba 是目前表现较为不错的 Python 中文分词组件,它主要有以下特性:
[*]中文文本需要通过分词获得单个的词语
[*]jieba需要额外安装
[*]jieba库提供三种分词模式
2、jieba库支持三种分词模式:精确模式、全模式、搜索引擎模式、并且支持繁体分词,以及自定义词典。具体介绍:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
一、安装
我主要使用的软件有Anaconda,Pycharm等,看过我之前文章的大佬们,相信对Anaconda都有一个简单的了解,这里就不一一叙述了,直接安装。
因为jieba库不是Anaconda中自带的,所以需要我们自己下载,
1、首先进入jieba库官网:https://pypi.org/project/jieba/#files 点击官网中文件下载即可
2、将压缩包解压到anaconda的pkgs目录。
3、打开anaconda prompt,切换目录至比如我的D:/anaconda/pkgs/jieba-0.42,输入cmd进入命令行模式执行python setup.py install 即可。
打开pycharm 创建一个项目pip install jiebaimport jieba接下来是jieba库的使用
1、精确模式
精确模式分析是不存在冗余数据的,把完整的text文本按照中文词库的标准完成拆分。
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))# 精确模式
2、全模式
全模式与精确模式的不同在于,全模式存在冗余数据,是将存在可能的词语全部切分出来,从第一个字到最后一个字遍历作为词语第一个字。例如:以“吉”开头的词语包括“吉林”,“吉林省”,以“长”开头的名词包括“长春”“长春市”等等。seg_list = jieba.cut("我来到吉林省长春市高新技术产业开发区光谷大街1188号", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))# 全模式
3、搜索引擎模式
搜索引擎模式是将精确模式中的长词,再次按照全模式切分。seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")# 搜索引擎模式
print(", ".join(seg_list))
二、使用语法对词组的基本操作添加:str = "你好呀,我叫嘿嘿!多多关照!"
jieba.add_word("你")
print(jieba.lcut(str))
删除:str = "你好呀,我叫嘿嘿!多多关照!"
jieba.del_word("嘿嘿")
print(jieba.lcut(str))
调整词出现的频率:str = "你好呀,我叫嘿嘿!多多关照!"
jieba.suggest_freq(("嘿", "嘿"), True)
print(jieba.lcut(str))
暂时先到这慢慢在继续补充 python 新手。希望可以会更多 积少成多!!!
我是看成 jiba 进来的。。。不好意思。。 谢谢,收藏啦 学习中。 fstgw 发表于 2024-3-28 17:46
学习中。
一起加油! 祖千秋 发表于 2024-3-27 15:43
我是看成 jiba 进来的。。。不好意思。。
额......;www
页:
[1]