主要内容:
- 采集准备
- 采集工具
- 采集设置
- 采集入库
- 针对百度算法的处理规则
按照系列-3中提到的,关键词挖掘分「定向」和「非定向」
因此内容采集也相同,分定向和非定向
定向采集主要是针对某一类关键词,采集对象主要是搜索引擎中排名靠前的网页及内容,不方便用工具,门槛比较高
非定向采集可以用工具,比较常用,集中采集某一类网站即可。
【采集准备】
- 对内准备:了解自己需要采集的网站类别,以及自己数据库中的必备字段,一般包括:标题、正文、发布时间。
- 对外准备:选择没有反爬类型的网站,尤其是开源cms开发的站,都是标准模版结构【首页-列表-内容页】,尽量不要采集论坛,因为很多需要登陆看全文,且结构比较混乱。
【采集工具】
- 火车头:需要win系统,最好用旗舰版,可以选择官网下载并购买,或者网上找低版本的破解版
- webscrper:chrome浏览器自带的插件,网上有大量教程,随便百度搜索一下就能学会,但是不太适合大批量采集(万级以上)
- 后羿采集器:支持多系统(Windows、 Mac、 Linux),主要也是采集网页内容。
- 自己写代码抓,适合技术大佬,不展开
【采集设置】(工具类)
以火车头为例,基本为傻瓜式配置,需要懂一点html代码,通过浏览器简单抓包,找到抓取区域进行配置,然后设置一些筛选条件,就能完成抓取。
【采集入库】
一般采集好的内容,导出mysql格式,然后通过sql命令插入数据库即可。不用懂sql全部内容,直接遇到什么问题,搜索就好。
【针对百度算法的处理规则】
主要针对清风算法和飓风算法
1、与采集强相关的清风算法:https://ziyuan.baidu.com/college/articleinfo?id=2728
标题的原则
• 网站应确保该站点下的每个页面都有指定的标题,且同一站点的不同网页应分别使用不同的标题;
不同页面,不同title
• 页面标题应准确概括页面内容,避免使用模糊和不相关的描述;
标题与网页内容相关
• 页面标题应简明扼要,避免使用冗长的标题,避免关键词堆砌;
关键词堆砌是有用的
• 页面标题的符号使用正确,建议参考百度建议的标题符号用法(详细内容请参见本文“3.3.2标题的符号”部分)
跟着做就行了
2、与采集强相关的飓风算法:https://ziyuan.baidu.com/college/articleinfo?id=2603
类型1:采集痕迹明显
详细说明:站点存在大量从其他站点或公众号采集、搬运而来的内容,信息未经整合,排版混乱,部分功能缺失或文章可读性差,有明显采集痕迹,用户阅读感受很差。
示例:采集文章内容中存在超链接不可点、功能缺失问题,采集痕迹明显
移除采集痕迹
类型2:内容拼接
详细说明:采集多篇不同文章进行拼接,整体内容未形成完整逻辑,存在阅读不通顺、文章不连贯等问题,无法满足用户需求。
示例:前后内容无关,逻辑不连贯
拼接与标题关键词相关的内容
类型3:站点存在大量采集内容
详细说明:网站内容下多数内容均为采集,网站自身无内容生产力或内容生产能力较差,网站内容质量较低。
建议:我们鼓励站点生产原创内容,如若转载需标明出处。(如:新闻、政策类等标明出处的转载内容,不会被认为是采集内容)
降低已被百度大量索引内容的占比
类型4:跨领域采集
详细说明:站点依靠采集大量与本站领域不一致的内容来获取流量的行为。
示例:教育站点发布美食相关内容
同类型2,采集与关键词相关的内容
降权形式:
- 按目录降权、按URL格式降权、按模板降权
- 按子域名降权
- 按主域名降权(被K)
综上所述,我们要这么处理:
- 采集文章,分成多个目录存放,分散风险
- 每个目录下的文章,尽可能使用独立模板和独立URL格式,再次分散风险
- 关键词可以堆砌,但堆砌的词需要与内容完全正相关
- 修改标题(必做的)
{原标题} —-> {新关键词}{原标题}
{原标题} —-> {新关键词}{修改后的原标题} - 内容源尽可能找一些百度无法抓取到的内容(如微信公众号)或新鲜的内容(当日的新闻),混在采集内容中,比例越大越安全
- 内容处理,排除采集特征(必做的),如采集源名称和url等