例子1:邮件分类

对每一份邮件计算出一个词向量(0,1,0,1,0,0,0)类似
统计每一个单词在每一类里的出现频率(出现次数/总的出现词数)
可以得到两个向量,一个是正类,一个负类,长度是词典大小。每一个数是对应词的频率。
同时计算正类文本和负类的频率。
得到vec1(0.2,0.3,0.1,….)以及类似的vec2

预测的时候计算:
p1=出现的词的在vec1里的频率之和+log(正类频率)
p2=出现的词的在vec2里的频率之和+log(负类频率)
比较大小作为预测

如果一个词经常出现在积极文本,那么这种词在某文本里大量出现,可以预测文本为积极。

可用的一些trick:

  1. 移出高频词,高频词往往是一些语句结构词,特征性不强却大量出现,占了大比重
  2. 移出停用词,理由同上