吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2235|回复: 1
收起左侧

[其他转载] ik自定义分词器不生效问题

[复制链接]
黑白客 发表于 2021-7-30 14:33

@TOC

声明

本文涉及的es, elasticsearch-head, kibana, ik分词器的安装配置可以参考我的其它博客
本文主要参考狂神说java视频课程编写。主要是为了巩固学习,复习方便。

ik分词器如何自定义分词

1.可以通过elasticsearch-plugin list 查看加载进来的插件
如图:在这里插入图片描述在这里插入图片描述

  1. 利用kibana测试不同分词效果
    第一个查询,结果为“中国共产党” 但是第二个会分的很多
    在这里插入图片描述
    在这里插入图片描述
  2. 当我们输入狂神说,或者自己的名字的时候,发现被分割开了。但是这并不是我们想要的。我们该如何处理呢
    在这里插入图片描述
    5.如下: 在es的安装路径的plugins下的ik中找到唯一的配置文件.xml
    在这里插入图片描述
    6.根据提示,我们在这里写如自己创建的.dic文件的名字。
    在这里插入图片描述
    7.查看es启动日志可以看到加载了我们的my.dic
    在这里插入图片描述
    再次查询就可以看到 我们的名字变成一个词了
    在这里插入图片描述
    在这里插入图片描述

自定义分词不生效问题

在es日志中加载了my.dic不见得 就可以使用了。
原因 编码问题
我是直接右键新建文本文档,然后将文件名修改为my.dic。这个就可能出现编码问题
使用notepad++打开后发现果然,编码为ANSI
在这里插入图片描述
解决方法:分词的编码问题,在notepad中Encoding》中修改编码格式为UTF-8即可
在这里插入图片描述
然后重启es 和kibana

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

Sen 发表于 2021-7-30 17:26
《我在无爱学文本检索第一天》
《我在无爱学JavaScript第99天》

感谢分享, 收藏了, Solr会用到。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 13:21

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表