数据文件: yes-minister.txt

    先安装WordCloud

    1. pip install wordcloud --user

    image.png

    安装完后, 显示如下:

    image.png

    代码如下:

    1. filename = "yes-minister.txt"
    2. with open(filename) as f:
    3. mytext = f.read()
    4. from wordcloud import WordCloud
    5. wordcloud = WordCloud().generate(mytext)
    6. %pylab inline
    7. import matplotlib.pyplot as plt
    8. plt.imshow(wordcloud, interpolation='bilinear')
    9. plt.axis("off")

    显示效果如下:

    制作英文词云 - 图3
    从古腾堡计划下载文本

    1. ! wget http://www.gutenberg.org/cache/epub/19033/pg19033.txt

    古腾堡计划网址:http://www.gutenberg.org/

    古腾堡计划

    古腾堡计划提供57,000多本免费电子书。从免费epub图书、免费kindle图书中进行选择,下载或在线阅读。你会在这里发现世界上最伟大的文学作品,重点是版权过期的旧作品。成千上万的志愿者为了娱乐和教育,数字化并努力校对电子书。

    下载过程显示如下:

    制作英文词云 - 图4

    此时显示的内容如下:

    制作英文词云 - 图5

    如果在这篇文章中搜索,会发现在开始和结束的部分出现了大量的“Gutenberg”词汇。这部分内容并不是小说的正文内容。

    制作英文词云 - 图6