分词器的原理到底是什么:
    它的底层会有一个词典
    会依赖字典去做分词
    不会包含所有语言的词典
    ik三大问号:
    如何拓展字典?

    如何停掉无用和敏感的词语?

    如何实现个性化的设置?

    解答|:
    要拓展ik分词器的词库 只需要修改一个ik分词器目录中的IKAnalyzer.cfg.xml
    文件即可
    image.png
    image.png
    找分词器的配置文件:
    image.png

    分词器的作用?
    分词用的
    分词器在什么时候进行分词。
    第一:
    将文档创建倒排索引的时候
    将文档中的内容进行分词

    第二:
    比如说我在文档中输入了一长串的内容
    “坤仔很牛逼大家都知道”
    那么这一句话输入到百度的搜索框的时候
    那么就会分成一个个的词语
    这个时候也要做分词
    所以说:
    创建倒排索引的时候对文档进行分词
    用户搜索的时候对输入的内容进行分词

    中文分词一般用ik分词器,那么有几种模式?
    两种:
    smart :智能切分 粗粒度
    max_word 最细切分 细粒度
    切分粒度越大那么消耗的内存空间就越大
    ik分词器如何拓展词条?如何停用词条?
    利用config目录的ikAnalyzer.cfg.xml文件添加拓展词典和停用词典
    在词典中添加拓展词条或者停用词条