jieba 是一个简单的分词库,可以用来将一段话分解为一系列词语。分解后的词语更容易被进一步的处理。比如,你可以根据一段话的高词频词语来判断一段话的主要意图。或是分析历年的高频词汇变化来掌握流行趋势。

    1. import jieba
    2. import jieba.analyse
    3. text = '''
    4. 中国载人航天工程办公室主任助理季启明在发射成功后的新闻发布会上介绍称,长征五号B遥一火箭已将载荷组合体准确送入预定轨道,它搭载的新一代载人飞船试验船是面向中国空间站运营及未来载人探月需求而研发的新一代天地往返运输器,本次任务将对飞船高速再入返回的防热、控制、群伞回收及部分重复使用等关键技术进行验证。同时升空的还有柔性充气式货物返回舱试验舱,这是中国新型空间运输飞行器的试验器,本次任务将对充气展开式返回飞行器轨道再入关键技术进行验证。按照飞行程序,试验舱和试验船完成在轨试验后,计划分别于5月6日和8日返回东风着陆场。
    5. '''
    6. # 全模式
    7. seg_list = jieba.cut(text, cut_all=True)
    8. print(u"全模式: ", "/ ".join(seg_list))
    9. # 精确模式
    10. seg_list = jieba.cut(text, cut_all=False)
    11. print (u"[精确模式: ", "/ ".join(seg_list))
    12. # 搜索引擎模式
    13. seg_list = jieba.cut_for_search(text)
    14. print(u"搜索引擎模式: ", "/ ".join(seg_list))
    15. #关键词分析
    16. tags = jieba.analyse.extract_tags(text, topK=3)
    17. print(u"关键词: ", "/ ".join(tags))