制作中文词云和制作英文词云的流程大体相同,由2个区别:中文需要分词,中文的显示需要相应的字体支持。

    英文单词之间采用空格作为强制分隔符。但是,中文的文本就没有这种空格区隔了。为了做词云,我们首先需要知道中文文本里面都有哪些“词”。

    如何用电脑把中文文本正确拆分为一个个的单词呢?这种工作,专业术语叫做分词。

    yes-minister-cn.txt
    simsun.ttf.zip 下载后需要解压缩后上传

    代码

    1. filename = "../dataset/yes-minister-cn.txt"
    2. with open(filename) as f:
    3. mytext = f.read()
    4. import jieba
    5. mytext = " ".join(jieba.cut(mytext))
    6. from wordcloud import WordCloud
    7. wordcloud = WordCloud(font_path="../font/simsun.ttf").generate(mytext)
    8. %pylab inline
    9. import matplotlib.pyplot as plt
    10. plt.imshow(wordcloud, interpolation='bilinear')
    11. plt.axis("off")

    制作中文词云 - 图1

    如果没有中文字库,显示的效果是这样的:

    制作中文词云 - 图2

    https://blog.csdn.net/qq_25819827/article/details/78991733