详细题目在https://github.com/Yixiaohan/show-me-the-code上。此次是0006题,统计出一个文件夹下每个文本文件最为重要的词。
总的思路是读取文件目录,将所有文件加至列表中,然后对列表每个文件中的文本进行过滤,使用字典计算词出现次数,然后对字典排序,将出现次数最多的词存到一个列表中,最后输出该列表。
# -*- coding: UTF-8 -*-import osimport re#将文件夹中的文件放入一个列表中,如果是子文件夹则忽略。def getFile(directory):list = os.listdir(directory)fileList = []for item in list:filepath = os.path.join(directory,item)if not os.path.isdir(filepath):fileList.append(filepath)return fileList#对于列表中的每个txt文件,都读取文件内容#然后使用正则表达式过滤除了英文字母外所有字符,然后将其切割为一个英文单词列表#接着将单词变为小写,使用字典来计算单词出现次数#最后将字典按大到小排序,然后取字典中的第一个英文单词,加入到一个列表中,最后返回该列表def Calculator(fileList):importantWord = []for temp in fileList:with open(temp, 'r') as file:word = re.sub(r'[^a-zA-Z]',' ',unicode(file.read().split()))word = word.split()word_dict = {}for item in word:item = item.lower()if not item in word_dict:word_dict[item] = 1else :word_dict[item] += 1word_dict = sorted(word_dict.iteritems(),key=lambda d:d[1],reverse=True)theWord, value = word_dict[0]importantWord.append(theWord)return importantWord#打印每个文本文件最重要的词list = getFile('txt')Calculator(list)for item in Calculator(list):print item
