详细题目在https://github.com/Yixiaohan/show-me-the-code上。此次是0006题,统计出一个文件夹下每个文本文件最为重要的词。
总的思路是读取文件目录,将所有文件加至列表中,然后对列表每个文件中的文本进行过滤,使用字典
计算词出现次数,然后对字典排序,将出现次数最多的词存到一个列表中,最后输出该列表。
# -*- coding: UTF-8 -*-
import os
import re
#将文件夹中的文件放入一个列表中,如果是子文件夹则忽略。
def getFile(directory):
list = os.listdir(directory)
fileList = []
for item in list:
filepath = os.path.join(directory,item)
if not os.path.isdir(filepath):
fileList.append(filepath)
return fileList
#对于列表中的每个txt文件,都读取文件内容
#然后使用正则表达式过滤除了英文字母外所有字符,然后将其切割为一个英文单词列表
#接着将单词变为小写,使用字典来计算单词出现次数
#最后将字典按大到小排序,然后取字典中的第一个英文单词,加入到一个列表中,最后返回该列表
def Calculator(fileList):
importantWord = []
for temp in fileList:
with open(temp, 'r') as file:
word = re.sub(r'[^a-zA-Z]',' ',unicode(file.read().split()))
word = word.split()
word_dict = {}
for item in word:
item = item.lower()
if not item in word_dict:
word_dict[item] = 1
else :
word_dict[item] += 1
word_dict = sorted(word_dict.iteritems(),key=lambda d:d[1],reverse=True)
theWord, value = word_dict[0]
importantWord.append(theWord)
return importantWord
#打印每个文本文件最重要的词
list = getFile('txt')
Calculator(list)
for item in Calculator(list):
print item