数据文件: yes-minister.txt
先安装WordCloud
pip install wordcloud --user
安装完后, 显示如下:
代码如下:
filename = "yes-minister.txt"
with open(filename) as f:
mytext = f.read()
from wordcloud import WordCloud
wordcloud = WordCloud().generate(mytext)
%pylab inline
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
显示效果如下:
从古腾堡计划下载文本
! wget http://www.gutenberg.org/cache/epub/19033/pg19033.txt
古腾堡计划网址:http://www.gutenberg.org/
古腾堡计划
古腾堡计划提供57,000多本免费电子书。从免费epub图书、免费kindle图书中进行选择,下载或在线阅读。你会在这里发现世界上最伟大的文学作品,重点是版权过期的旧作品。成千上万的志愿者为了娱乐和教育,数字化并努力校对电子书。
下载过程显示如下:
此时显示的内容如下:
如果在这篇文章中搜索,会发现在开始和结束的部分出现了大量的“Gutenberg”词汇。这部分内容并不是小说的正文内容。