本篇主要内容:

1 词库搭建
1.1 关键词来源
1.2 关键词分类
2 关键词布局
2.1 TF-IDF算法
2.2 BM25算法

1 词库搭建

1.1 关键词来源

方法1:通过词根拓展关键词(定向)

来源:
5118长尾词、5118树状图规划、爱站长尾词、百度凤巢关键词、百度相关搜索、下拉框
历史上还有金花、战神等长尾词工具,也能用,大同小异,目前感觉第三方公司,5118投入更大些

竞争度维度:凤巢 > 5118|爱站 > 相关搜索|下拉框,一般来说,定向方式的关键词竞争度较大

竞争度越大,越难出效果,但是流量价值高

稳定性维度:凤巢|5118|爱站 > 相关搜索|下拉框

稳定性,就是能进入凤巢的词大部分都是最近30天有搜索量的词,但是相关搜索和下拉框却不一定。

方法2:通过网站拓词(非定向)

来源:
5118网站词库、爱站网站词库、遍历竞争对手网站(主要是tag页、专题页等)

1.2 关键词分类

通过词根拓展的词,一般可以进行归类汇总,从而生成大量关键词

比如:

{大学名称} + {年份} + 录取分数线
{大学名称} + 怎么样/好不好

通过网站拓展的词,需要进行垃圾词过滤,过滤掉与本站无关的、重复的和公共敏感词,比如涉政的

另外推荐百度官方提供的分类打标签接口,也可以内容分类有很好的帮助
文章标签:http://ai.baidu.com/tech/nlp_apply/topictagger
文章分类:http://ai.baidu.com/tech/nlp_apply/doctagger

2 关键词布局

主要解决网页「塞什么词」以及「塞多少」的问题,避免网页相似性过高

2.1 TF-IDF算法

TF = 某个词在文档中出现的次数/文档的长度
IDF = log(搜索引擎文档总数/出现某个词的文档总数)

关键词: “黑户口子”
目标页:http://www.pcben.com/news/gonglue/11835.html

词项:[‘黑户’, ‘口子’]
文档字数:2104
[黑户] 出现次数:19
[口子] 出现次数:49

TF(黑户) = 19/2014 = 0.009
TF(口子) = 49/2104 = 0.023

搜索引擎文档总数:100000000
[黑户]文档总数:21400000
[口子]文档总数:36500000

IDF(黑户) = log(100000000/21400000) = 2.22
IDF(口子) = log(100000000/36500000) = 1.45

[黑户]的重要性是[口子]的1.5倍

网页多出现[黑户],可以提高与[黑户口子]的相关性

TF-IDF(黑户口子) = TF(黑户)_IDF(黑户) + TF(口子)_IDF(口子) = 0.009×2.22 + 0.023×1.45 = 0.05

所以,

  • 网页不见得内容越多越好。若布局不当,内容越多反而会稀释TF(keyword)的分值,从而降低这个词与这个网页的相关性
  • IDF本质是一个词项的权重,降低文档中高频关键词的权重。所以网页中,玩命塞完整的关键词不见得好,但要多塞这个关键词中IDF最高的词项

Case:[北京百度区块链工程师工资]的网页,若添加内链模块,以下哪个规则,对提升相关性,可能效果最好?

词项:北京、百度、区块链、工程师、工资

A. 调用北京地区,10个随机职位的工资链接(降低相似性,甚至降低排名)
B. 调用北京地区,30个百度职位的工资链接(比A严重,降低相似性,降低排名)
C. 调用北京地区,10个区块链工程师的工资链接(get)
D. 调用北京地区,20个区块链工程师的招聘链接(get)

2.2 BM25算法

TF-IDF存在明显漏洞,因为SEO可以通过 [缩减页面内容量] 和 [堆砌IDF高的词项] 来拉高关键词与网页的相关性

所以,利用BM25算法进行一些必要限制

  • 增加了文档长度对相关性的影响。文档越短,相关性会比用TF计算的值更低,减少通过 [缩减页面内容量] 对相关性计算的干扰
  • 增加了对TF极限值的限制,减少通过 [堆砌IDF高的词项] 对相关性计算的影响
  • 只是影响而已,[缩减页面内容量] 和 [堆砌IDF高的词项] 还是有用的,注意尺度
  • BM25同样作用于title

所以,百度官方才有会要求文章内容,不少于300字的要求,原理如上。

而SEO可以在300字的基础上,进行「堆砌关键词」的操作。

总结,关键词采集,主要解决关键词来源、关键词分类和关键词分布等问题,是产生内容的前提。