分词器的原理到底是什么:
它的底层会有一个词典
会依赖字典去做分词
不会包含所有语言的词典
ik三大问号:
如何拓展字典?
如何停掉无用和敏感的词语?
如何实现个性化的设置?
解答|:
要拓展ik分词器的词库 只需要修改一个ik分词器目录中的IKAnalyzer.cfg.xml
文件即可
找分词器的配置文件:
分词器的作用?
分词用的
分词器在什么时候进行分词。
第一:
将文档创建倒排索引的时候
将文档中的内容进行分词
第二:
比如说我在文档中输入了一长串的内容
“坤仔很牛逼大家都知道”
那么这一句话输入到百度的搜索框的时候
那么就会分成一个个的词语
这个时候也要做分词
所以说:
创建倒排索引的时候对文档进行分词
用户搜索的时候对输入的内容进行分词
中文分词一般用ik分词器,那么有几种模式?
两种:
smart :智能切分 粗粒度
max_word 最细切分 细粒度
切分粒度越大那么消耗的内存空间就越大
ik分词器如何拓展词条?如何停用词条?
利用config目录的ikAnalyzer.cfg.xml文件添加拓展词典和停用词典
在词典中添加拓展词条或者停用词条