9 SEO站群 - SEO站群系列-5：内容采集 - 《SEO入门课》

主要内容：

按照系列-3中提到的，关键词挖掘分「定向」和「非定向」
因此内容采集也相同，分定向和非定向

定向采集主要是针对某一类关键词，采集对象主要是搜索引擎中排名靠前的网页及内容，不方便用工具，门槛比较高

非定向采集可以用工具，比较常用，集中采集某一类网站即可。

以火车头为例，基本为傻瓜式配置，需要懂一点html代码，通过浏览器简单抓包，找到抓取区域进行配置，然后设置一些筛选条件，就能完成抓取。

一般采集好的内容，导出mysql格式，然后通过sql命令插入数据库即可。不用懂sql全部内容，直接遇到什么问题，搜索就好。

主要针对清风算法和飓风算法

标题的原则

• 网站应确保该站点下的每个页面都有指定的标题，且同一站点的不同网页应分别使用不同的标题；

不同页面，不同title

• 页面标题应准确概括页面内容，避免使用模糊和不相关的描述；

标题与网页内容相关

• 页面标题应简明扼要，避免使用冗长的标题，避免关键词堆砌；

关键词堆砌是有用的

• 页面标题的符号使用正确，建议参考百度建议的标题符号用法（详细内容请参见本文“3.3.2标题的符号”部分）

跟着做就行了

类型1：采集痕迹明显

详细说明：站点存在大量从其他站点或公众号采集、搬运而来的内容，信息未经整合，排版混乱，部分功能缺失或文章可读性差，有明显采集痕迹，用户阅读感受很差。

示例：采集文章内容中存在超链接不可点、功能缺失问题，采集痕迹明显

移除采集痕迹

类型2：内容拼接

详细说明：采集多篇不同文章进行拼接，整体内容未形成完整逻辑，存在阅读不通顺、文章不连贯等问题，无法满足用户需求。

示例：前后内容无关，逻辑不连贯

拼接与标题关键词相关的内容

类型3：站点存在大量采集内容

详细说明：网站内容下多数内容均为采集，网站自身无内容生产力或内容生产能力较差，网站内容质量较低。

建议：我们鼓励站点生产原创内容，如若转载需标明出处。（如：新闻、政策类等标明出处的转载内容，不会被认为是采集内容）

降低已被百度大量索引内容的占比

类型4：跨领域采集

详细说明：站点依靠采集大量与本站领域不一致的内容来获取流量的行为。

示例：教育站点发布美食相关内容

同类型2，采集与关键词相关的内容

降权形式：

综上所述，我们要这么处理：