主要内容:

  • 采集准备
  • 采集工具
  • 采集设置
  • 采集入库
  • 针对百度算法的处理规则

按照系列-3中提到的,关键词挖掘分「定向」和「非定向」
因此内容采集也相同,分定向和非定向

定向采集主要是针对某一类关键词,采集对象主要是搜索引擎中排名靠前的网页及内容,不方便用工具,门槛比较高

非定向采集可以用工具,比较常用,集中采集某一类网站即可。

【采集准备】

  • 对内准备:了解自己需要采集的网站类别,以及自己数据库中的必备字段,一般包括:标题、正文、发布时间。
  • 对外准备:选择没有反爬类型的网站,尤其是开源cms开发的站,都是标准模版结构【首页-列表-内容页】,尽量不要采集论坛,因为很多需要登陆看全文,且结构比较混乱。

【采集工具】

  • 火车头:需要win系统,最好用旗舰版,可以选择官网下载并购买,或者网上找低版本的破解版
  • webscrper:chrome浏览器自带的插件,网上有大量教程,随便百度搜索一下就能学会,但是不太适合大批量采集(万级以上)
  • 后羿采集器:支持多系统(Windows、 Mac、 Linux),主要也是采集网页内容。
  • 自己写代码抓,适合技术大佬,不展开

【采集设置】(工具类)

以火车头为例,基本为傻瓜式配置,需要懂一点html代码,通过浏览器简单抓包,找到抓取区域进行配置,然后设置一些筛选条件,就能完成抓取。

【采集入库】

一般采集好的内容,导出mysql格式,然后通过sql命令插入数据库即可。不用懂sql全部内容,直接遇到什么问题,搜索就好。

【针对百度算法的处理规则】

主要针对清风算法和飓风算法

1、与采集强相关的清风算法:https://ziyuan.baidu.com/college/articleinfo?id=2728

标题的原则

• 网站应确保该站点下的每个页面都有指定的标题,且同一站点的不同网页应分别使用不同的标题;

不同页面,不同title

• 页面标题应准确概括页面内容,避免使用模糊和不相关的描述;

标题与网页内容相关

• 页面标题应简明扼要,避免使用冗长的标题,避免关键词堆砌;

关键词堆砌是有用的

• 页面标题的符号使用正确,建议参考百度建议的标题符号用法(详细内容请参见本文“3.3.2标题的符号”部分)

跟着做就行了

2、与采集强相关的飓风算法:https://ziyuan.baidu.com/college/articleinfo?id=2603

类型1:采集痕迹明显

详细说明:站点存在大量从其他站点或公众号采集、搬运而来的内容,信息未经整合,排版混乱,部分功能缺失或文章可读性差,有明显采集痕迹,用户阅读感受很差。

示例:采集文章内容中存在超链接不可点、功能缺失问题,采集痕迹明显

移除采集痕迹

类型2:内容拼接

详细说明:采集多篇不同文章进行拼接,整体内容未形成完整逻辑,存在阅读不通顺、文章不连贯等问题,无法满足用户需求。

示例:前后内容无关,逻辑不连贯

拼接与标题关键词相关的内容

类型3:站点存在大量采集内容

详细说明:网站内容下多数内容均为采集,网站自身无内容生产力或内容生产能力较差,网站内容质量较低。

建议:我们鼓励站点生产原创内容,如若转载需标明出处。(如:新闻、政策类等标明出处的转载内容,不会被认为是采集内容)

降低已被百度大量索引内容的占比

类型4:跨领域采集

详细说明:站点依靠采集大量与本站领域不一致的内容来获取流量的行为。

示例:教育站点发布美食相关内容

同类型2,采集与关键词相关的内容

降权形式:

  • 按目录降权、按URL格式降权、按模板降权
  • 按子域名降权
  • 按主域名降权(被K)

综上所述,我们要这么处理:

  • 采集文章,分成多个目录存放,分散风险
  • 每个目录下的文章,尽可能使用独立模板和独立URL格式,再次分散风险
  • 关键词可以堆砌,但堆砌的词需要与内容完全正相关
  • 修改标题(必做的)
    {原标题} —-> {新关键词}{原标题}
    {原标题} —-> {新关键词}
    {修改后的原标题}
  • 内容源尽可能找一些百度无法抓取到的内容(如微信公众号)或新鲜的内容(当日的新闻),混在采集内容中,比例越大越安全
  • 内容处理,排除采集特征(必做的),如采集源名称和url等