h3>5.0.1 标记

    1. 一段文本 = "我爱北京天安门"
    2. 标记器 = worker("tag")
    3. 结果 = tagging(一段文本, 标记器)
    4. print(结果)
    5. #> r v ns ns
    6. #> "我" "爱" "北京" "天安门"
    7. names(tagging(一段文本, 标记器))
    8. #> [1] "r" "v" "ns" "ns"

    对已经分好词的文本进行标记

    1. 分词器 = worker()
    2. 分词结果 = segment(一段文本, 分词器)
    3. 分词结果
    4. #> [1] "我" "爱" "北京" "天安门"
    5. vector_tag(分词结果, 标记器)
    6. #> r v ns ns
    7. #> "我" "爱" "北京" "天安门"

    5.0.2 关键词

    topn 控制提取数量

    1. 提取器 = worker("keywords", topn = 1)
    2. keywords("我爱北京天安门", 提取器)
    3. #> 8.9954
    4. #> "天安门"

    对已经分好词的文本进行标记

    1. 分词器 = worker()
    2. 分词结果 = segment(一段文本, 分词器)
    3. 分词结果
    4. #> [1] "我" "爱" "北京" "天安门"
    5. vector_keywords(分词结果, 提取器)
    6. #> 8.9954
    7. #> "天安门"

    5.0.3 Simhash 与海明距离

    1. 摘要器 = worker("simhash", topn=2)
    2. simhash("江州市长江大桥参加了长江大桥的通车仪式", 摘要器)
    3. #> $simhash
    4. #> [1] "12882166450308878002"
    5. #>
    6. #> $keyword
    7. #> 22.3853 8.69667
    8. #> "长江大桥" "江州"
    9. distance("hello world!", "江州市长江大桥参加了长江大桥的通车仪式", 摘要器)
    10. #> $distance
    11. #> [1] 23
    12. #>
    13. #> $lhs
    14. #> 11.7392 11.7392
    15. #> "hello" "world"
    16. #>
    17. #> $rhs
    18. #> 22.3853 8.69667
    19. #> "长江大桥" "江州"
    1. vector_simhash(c("今天","天气","真的","十分","不错","的","感觉"),摘要器)
    2. #> $simhash
    3. #> [1] "12098690169796312660"
    4. #>
    5. #> $keyword
    6. #> 6.45994 6.18823
    7. #> "天气" "不错"
    8. vector_distance(c("今天","天气","真的","十分","不错","的","感觉"),c("今天","天气","真的","十分","不错","的","感觉"),摘要器)
    9. #> $distance
    10. #> [1] 0
    11. #>
    12. #> $lhs
    13. #> 6.45994 6.18823
    14. #> "天气" "不错"
    15. #>
    16. #> $rhs
    17. #> 6.45994 6.18823
    18. #> "天气" "不错"

    5.0.4 tobin 进行 Simhash 数值的二进制转换。

    1. tobin("12098690169796312660")
    2. #> [1] "1010011111100111001011101001101110011010001110000011111001010100"

    5.0.5 词频统计 freq()

    1. freq(c("测试", "测试", "文本"))
    2. #> char freq
    3. #> 1 文本 1
    4. #> 2 测试 2

    5.0.6 生成 IDF 文件 get_idf()

    根据多文档词条结果计算 IDF 值。输入一个包含多个文本向量的 list,每一个文本向量代表一个文档,可自定义停止词列表。

    1. 临时输出目录 = tempfile()
    2. a_big_list = list(c("测试","一下"),c("测试"))
    3. get_idf(a_big_list, stop = jiebaR::STOPPATH, path = 临时输出目录)
    4. readLines(临时输出目录)
    5. #> [1] "一下 0.693147180559945" "测试 0"