jieba分词

Solowang 发表于 2024-3-27 11:28

本帖最后由 Solowang 于 2024-3-27 11:34 编辑

1、jieba 是目前表现较为不错的 Python 中文分词组件，它主要有以下特性：
[*]中文文本需要通过分词获得单个的词语
[*]jieba需要额外安装
[*]jieba库提供三种分词模式

2、jieba库支持三种分词模式：精确模式、全模式、搜索引擎模式、并且支持繁体分词，以及自定义词典。具体介绍：

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

一、安装
我主要使用的软件有Anaconda，Pycharm等，看过我之前文章的大佬们，相信对Anaconda都有一个简单的了解，这里就不一一叙述了，直接安装。
因为jieba库不是Anaconda中自带的，所以需要我们自己下载，
1、首先进入jieba库官网：https://pypi.org/project/jieba/#files 点击官网中文件下载即可
2、将压缩包解压到anaconda的pkgs目录。
3、打开anaconda prompt,切换目录至比如我的D:/anaconda/pkgs/jieba-0.42，输入cmd进入命令行模式执行python setup.py install 即可。
打开pycharm 创建一个项目pip install jiebaimport jieba接下来是jieba库的使用
1、精确模式
精确模式分析是不存在冗余数据的，把完整的text文本按照中文词库的标准完成拆分。
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))# 精确模式
2、全模式
全模式与精确模式的不同在于，全模式存在冗余数据，是将存在可能的词语全部切分出来，从第一个字到最后一个字遍历作为词语第一个字。例如：以“吉”开头的词语包括“吉林”，“吉林省”，以“长”开头的名词包括“长春”“长春市”等等。seg_list = jieba.cut("我来到吉林省长春市高新技术产业开发区光谷大街1188号", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))# 全模式
3、搜索引擎模式
搜索引擎模式是将精确模式中的长词，再次按照全模式切分。seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")# 搜索引擎模式
print(", ".join(seg_list))

二、使用语法对词组的基本操作添加：str = "你好呀，我叫嘿嘿！多多关照！"
jieba.add_word("你")
print(jieba.lcut(str))

删除：str = "你好呀，我叫嘿嘿！多多关照！"
jieba.del_word("嘿嘿")
print(jieba.lcut(str))
调整词出现的频率：str = "你好呀，我叫嘿嘿！多多关照！"
jieba.suggest_freq(("嘿", "嘿"), True)
print(jieba.lcut(str))

暂时先到这慢慢在继续补充 python 新手。希望可以会更多积少成多！！！

祖千秋 发表于 2024-3-27 15:43

我是看成 jiba 进来的。。。不好意思。。

kikue0304 发表于 2024-3-27 15:58

谢谢，收藏啦

fstgw 发表于 2024-3-28 17:46

学习中。

Solowang 发表于 2024-4-2 17:24

fstgw 发表于 2024-3-28 17:46
学习中。

一起加油！

Solowang 发表于 2024-4-2 17:24

祖千秋发表于 2024-3-27 15:43
我是看成 jiba 进来的。。。不好意思。。

额......;www

页: [1]

吾爱破解 - 52pojie.cn's Archiver

jieba分词