1、TF-IDF 介绍

  • TF-IDF:{Term Frequency}-{Inverse Document Frequency},是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术
  • TF-IDF 算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
    • 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  • TF-IDF 的主要思想:如果某个单词在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
  • TF-IDF 实际上是:TF * IDF
    • 某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF 倾向于过滤掉常见的词语,保留重要的词语。
  • 显然,一个词在文章中出现很多次,那么这个词肯定有着很大的作用(‘的’、‘是’等停用词除外)。
  • 假设把停用词都过滤掉、只考虑剩下有实际意义的词。这样又会遇到了另一个问题:可能发现 “中国”、”蜜蜂”、”养殖” 这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?
  • 显然不是这样。因为 “中国” 是很常见的词,相对而言,”蜜蜂” 和 “养殖” 不那么常见。如果这三个词在一篇文章的出现次数一样多,有理由认为,”蜜蜂” 和 “养殖” 的重要程度要大于 “中国”,也就是说,在关键词排序上面,”蜜蜂” 和 “养殖” 应该排在 “中国” 的前面。
  • 所以,需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。
  • 用统计学语言表达,就是在词频的基础上,要对每个词分配一个 “重要性” 权重。最常见的词(”的”、”是”、”在”)给予最小的权重,较常见的词(”中国”)给予较小的权重,较少见的词(”蜜蜂”、”养殖”)给予较大的权重。这个权重叫做 “逆文档频率”(Inverse Document Frequency,IDF),它的大小与一个词的常见程度成反比。
  • 知道了”词频”(TF)和”逆文档频率”(IDF)以后,将这两个值相乘,就得到了一个词的 TF-IDF 值。某个词对文章的重要性越高,它的 TF-IDF 值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。
  • TF-IDF 加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
  • 除了 TF-IDF 以外,搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。

image.png

  • 从事 SEO 行业时间比较长的人应该都听说过 TF-IDF 算法,TF-IDF 算法属于搜索引擎中的核心部分。TF-IDF 算法是增加相关词的覆盖率,以及高优布局关键词密度,从而在百度谷歌等搜索引擎内容质量这一项上的排名加分,获取超高分值。
  • 注: TF-IDF 算法非常容易理解,并且很容易实现,但是其简单结构并没有考虑词语的语义信息,无法处理一词多义与一义多词的情况。

    (1)TF(Term Frequency

  • 词频(TF)表示词条(关键字)在文本中出现的频率(次数)。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。

  • (03)TF-IDF 算法 - 图2,即:(03)TF-IDF 算法 - 图3

    • 其中 (03)TF-IDF 算法 - 图4是该词在文件(03)TF-IDF 算法 - 图5中出现的次数,分母则是文件(03)TF-IDF 算法 - 图6中所有词汇出现的次数总和。

      (2)IDF(Inverse Document Frequency

  • 逆向文件频率 (IDF) :某一特定词语的 IDF,可以由总文件数目除以包含该词语的文件的数目再将得到的商取对数得到

  • 如果包含词条t的文档越少, IDF 越大,则说明词条具有很好的类别区分能力。
  • (03)TF-IDF 算法 - 图7,即:(03)TF-IDF 算法 - 图8

    • (03)TF-IDF 算法 - 图9语料库中的文件总数
    • (03)TF-IDF 算法 - 图10包含词语(03)TF-IDF 算法 - 图11的文件数目(即(03)TF-IDF 算法 - 图12的文件数目)
      • 如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用:(03)TF-IDF 算法 - 图13

        2、TF-IDF 公式

  • (03)TF-IDF 算法 - 图14(Term(03)TF-IDF 算法 - 图15within document(03)TF-IDF 算法 - 图16

    • (03)TF-IDF 算法 - 图17:Fregency of(03)TF-IDF 算法 - 图18in(03)TF-IDF 算法 - 图19
    • (03)TF-IDF 算法 - 图20:Number of documents containing (03)TF-IDF 算法 - 图21
    • (03)TF-IDF 算法 - 图22:Total number of documents
  • 假如我们在百度上搜索“水果”这个词,百度爬虫抓取的网站内容有下面 5 个,你觉得哪个内容排名第一?

    1. 内容1 水果有水果,水果,水果,水果,水果
    2. 内容2 水果有苹果,桃子,西瓜,菠萝,梨子
    3. 内容3 蔬菜都很好吃,我最爱吃茄子了
    4. 内容4 苹果,梨子都是很好吃的水果
    5. 内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃
  • 大家凭直觉,内容 2 跟内容 5 应该排名靠前,内容 5 很可能是第 1,内容 2 是排名第 2。最终的排名顺序为 52413。

    • 至于为什么呢?核心词为“水果”,5 和 2 里都有“水果”和“苹果”两个关键词且 5 里有出现两次“水果”,4 比 2 少了一个苹果关键词,1 里面包括有“水果”这个关键词但有堆砌行为,3 和核心词没有相关性。
    • 其实按照 TF-IDF 算法也能得出这个结论。
  • 以下是 TF-IDF 算法简化解读版,真实的 TF-IDF 算法比这个要正规复杂很多。

    (1)计算 IDF(Inverse Document Frequency,逆文档频率)

  • 先统计各个词语被包含的文章数。比如“水果”被 4 篇文章(1、2、4、5)引用,4 就是“水果”的逆文档频率。

  • 分词后,各个单词的逆文档频率如下:
    • 水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1

image.png

  • 注意:
    • IDF= log(语料库中的文件总数 / 包含词语 t 的文件数目),即:(03)TF-IDF 算法 - 图24
    • 为了便于理解,这里做了精简。
  • 按照直觉,如果一篇文章把逆文档频率最高的前面的词都包含了,说明这篇文章内容更贴合用户意图,更受到搜索引擎喜欢。回到例子,“水果、苹果”是本例中重要性最高的 2 个词,如果内容中包含“水果、苹果”,那么这篇内容质量就越好。
  • 所以把包含“水果、苹果”的内容拿出来,就是比较靠谱的内容了:

    1. 内容2 水果有苹果,桃子,西瓜,菠萝,梨子
    2. 内容4 苹果,梨子都是很好吃的水果
    3. 内容5 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃

    (2)计算词频(TF)

  • 把内容 1、3 砍掉,剩下的内容 2、4、5 怎么排序。我们想一下,一个词语在内容中出现的次数越高,说明这个词语对这篇文章更重要。本例“水果”是核心词,那么因为内容 5 中出现“水果”两次,内容2、4 次数是 1,那么内容 5 胜出。最后的排序结果如下:

    1. 内容5 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃 (第一名)
    2. 内容2 水果有苹果,桃子,西瓜,菠萝,梨子(第二名)
    3. 内容4 苹果,梨子都是很好吃的水果(第三名)
    4. 内容1 水果有水果,水果,水果,水果,水果(相关度不够,被剔除)
    5. 内容3 蔬菜都很好吃,我最爱吃茄子了( 相关度不够,被剔除

    3、TF-IDF 对 SEO 优化的重要性

  • TF-IDF 算法不仅可以衡量关键词对页面的重要性,更能衡量文章的广度相关性。对于百度、google 来说,TF-IDF 算法的出现屏蔽了一大批用关键词密度来获取排名的 SEO 小白,同时提升了搜索质。

    • 百度百科:“除了 TF-IDF 以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序”。即排名可以由下面的公式决定:
      • 文章得分=TF-IDF 得分+链接得分

        (1)百度在用 TFIDF 算法

  • 百度专利中使用 TFIDF 的实锤。搜索算法来去匆匆,百度算法更新迭代也非常快,但是 TFIDF 算法是目前最核心的搜索算法之一。

    • 百度专利文档:《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》

image.png

(2)TFIDF 得分比重极高

  • 如果搜索引擎确定使用 TF-IDF 对网页内容作为评判质量的因子,那么这个比重有多大?
  • 现在的搜索引擎一般用如下的算法计算网站页面得分
    • score(页面得分) = TFIDF 分 * x + 链接分 * y + 用户体验分 * z
      • 其中x+y+z=100%
      • 大约在 2G 左右的谷歌搜索资料中,我们做了人工智能训练,预测 TFIDF 分值大约占百度 40% 左右的权重,谷歌更是达到了 50%。
      • 链接分:通过朋友透露,权重大约占百度 20% 左右,谷歌尚不清楚
      • 用户体验得分:百度在 40% 左右
  • 所以说,做 SEO 优化(TFIDF 的确是较为关键的一部分):

    • 排名得分=40%的内容质量相关性(TFIDF)+40%的用户体验分+20%的链接分(域名+外链)

      4、tf-idf 算法实现

      (1)python 3 实现

  • 注意:该代码 tf 计算使用的是整个语料,这里只是个简单例子。 ```python from collections import defaultdict import math import operator

def loadDataSet(): “”” 创建数据样本 Returns: dataset - 实验样本切分的词条 classVec - 类别标签向量 “””

  1. # 切分后的词条
  2. dataset = [ ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
  3. ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
  4. ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
  5. ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
  6. ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
  7. ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid'] ]
  8. # 类别标签向量, 1 代表好, 0 代表不好
  9. classVec = [0, 1, 0, 1, 0, 1]
  10. return dataset, classVec

def feature_select(list_words): “”” 特征选择 TF-IDF 算法 Parameters: list_words:词列表 Returns: dict_feature_select:特征选择词字典 “””

  1. # 总词频统计
  2. doc_frequency = defaultdict(int)
  3. for word_list in list_words:
  4. for i in word_list:
  5. doc_frequency[i] += 1
  6. # 计算每个词的 TF 值, 并存储到 word_tf 中;
  7. word_tf = {}
  8. for i in doc_frequency:
  9. word_tf[i] = doc_frequency[i] / sum(doc_frequency.values())
  10. # 计算每个词的 IDF 值
  11. doc_num = len(list_words)
  12. # 存储每个词的 idf 值
  13. word_idf = {}
  14. # 存储包含该词的文档数
  15. word_doc = defaultdict(int)
  16. for i in doc_frequency:
  17. for j in list_words:
  18. if i in j:
  19. word_doc[i] += 1
  20. for i in doc_frequency:
  21. word_idf[i] = math.log(doc_num / (word_doc[i]+1))
  22. # 计算每个词的 TF*IDF 的值
  23. word_tf_idf={}
  24. for i in doc_frequency:
  25. word_tf_idf[i] = word_tf[i] * word_idf[i]
  26. # 对字典按值由大到小排序
  27. dict_feature_select = sorted(word_tf_idf.items(),
  28. key=operator.itemgetter(1),
  29. reverse=True)
  30. return dict_feature_select

if name == ‘main‘:

  1. # 加载数据
  2. data_list, label_list = loadDataSet()
  3. # 所有词的 TF-IDF 值
  4. features = feature_select(data_list)
  5. print(features)
  6. print(len(features))
  1. <a name="XW2Gk"></a>
  2. ## (2)NLTK 中的实现
  3. ```python
  4. from nltk.text import TextCollection
  5. from nltk.tokenize import word_tokenize
  6. # 首先,构建语料库 corpus
  7. sents=['this is sentence one', 'this is sentence two', 'this is sentence three']
  8. # 对每个句子进行分词
  9. sents=[word_tokenize(sent) for sent in sents]
  10. print(sents)
  11. # 构建语料库
  12. corpus=TextCollection(sents)
  13. print(corpus)
  14. # 计算语料库中 "one" 的tf值
  15. tf = corpus.tf('one', corpus)
  16. # 1/12
  17. print(tf)
  18. # 计算语料库中 "one" 的 idf 值
  19. idf=corpus.idf('one')
  20. # log(3/1)
  21. print(idf)
  22. # 计算语料库中 "one" 的 tf-idf 值
  23. tf_idf=corpus.tf_idf('one',corpus)
  24. print(tf_idf)

(3)sklearn 中的实现

  1. from sklearn.feature_extraction.text import CountVectorizer
  2. from sklearn.feature_extraction.text import TfidfTransformer
  3. x_train = ['TF-IDF 主要 思想 是',
  4. '算法 一个 重要 特点 可以 脱离 语料库 背景',
  5. '如果 一个 网页 被 很多 其他 网页 链接 说明 网页 重要']
  6. x_test=['原始 文本 进行 标记', '主要 思想']
  7. # 该类会将文本中的词语转换为词频矩阵, 矩阵元素 a[i][j] 表示 j 词在 i 类文本下的词频
  8. vectorizer = CountVectorizer(max_features=10)
  9. # 该类会统计每个词语的 tf-idf 权值
  10. tf_idf_transformer = TfidfTransformer()
  11. # 将文本转为词频矩阵并计算 tf-idf
  12. tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(x_train))
  13. # 将 tf-idf 矩阵抽取出来, 元素 a[i][j] 表示 j 词在 i 类文本中的 tf-idf 权重
  14. x_train_weight = tf_idf.toarray()
  15. # 对测试集进行 tf-idf 权重计算
  16. tf_idf = tf_idf_transformer.transform(vectorizer.transform(x_test))
  17. # 测试集 TF-IDF 权重矩阵
  18. x_test_weight = tf_idf.toarray()
  19. print('输出x_train文本向量:')
  20. print(x_train_weight)
  21. """
  22. 输出x_train文本向量:
  23. [[0.70710678 0. 0.70710678 0. 0. 0.
  24. 0. 0. 0. 0. ]
  25. [0. 0.3349067 0. 0.44036207 0. 0.44036207
  26. 0.44036207 0.44036207 0. 0.3349067 ]
  27. [0. 0.22769009 0. 0. 0.89815533 0.
  28. 0. 0. 0.29938511 0.22769009]]
  29. """
  30. print('输出x_test文本向量:')
  31. print(x_test_weight)
  32. """
  33. 输出x_test文本向量:
  34. [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  35. [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]]
  36. """

(4)jieba 中的实现

  1. import jieba.analyse
  2. text = """关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、
  3. 信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、
  4. 文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作"""
  5. keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=())
  6. # jy: ['文档', '文本', '关键词', '挖掘', '文本检索']
  7. print(keywords)
  • jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
    • sentence:待提取的文本
    • topK:返回几个 TF/IDF 权重最大的关键词,默认值为 20
    • withWeight:是否一并返回关键词权重值,默认值为 False
    • allowPOS:仅包括指定词性的词,默认值为空,即不筛选


5、TF-IDF 算法的不足、改进

(1)不足

  • TF-IDF 采用文本逆频率 IDF 对 TF 值加权取权值大的作为关键词,但 IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以 TF-IDF 算法的精度并不是很高,尤其是当文本集已经分类的情况下。
  • 在本质上 IDF 是一种试图抑制噪音的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用。这对于大部分文本信息,并不是完全正确的。IDF 的简单结构并不能使提取的关键词十分有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,这一方法有很大弊端,往往一些同类文本的关键词被盖。
  • TF-IDF 算法实现简单快速,但是仍有许多不足之处:

    • 没有考虑特征词的位置因素对文本的区分度,词条出现在文档的不同位置时,对区分度的贡献大小是不一样的。
    • 按照传统 TF-IDF,往往一些生僻词的 IDF(反文档频率)会比较高、因此这些生僻词常会被误认为是文档关键词。
    • 传统 TF-IDF 中的 IDF 部分只考虑了特征词与它出现的文本数之间的关系,而忽略了特征项在一个类别中不同的类别间的分布情况。
    • 对于文档中出现次数较少的重要人名、地名信息提取效果不佳

      (2)改进

  • 【2013-00-00】Improved TF-IDF Keyword Extraction Algorithm.pdf

    • 注意:论文引用量不高,仅供参考