1、如何利用数据科学的评估一个行业SEO竞争大小?

想了下,再给个量化的方式。首先,像前面提到的,将行业搜索词逐一拿到百度去查排名,看各网站排第几,排在第几就加上下面对应的数值。比如某网站在某个词上面排第三名,就加分1.020。各排名位置粗略的平均点击率:
2.856
1.923
1.020
0.814
0.750
0.572
0.401
0.441
0.553
0.670
得到一个最终分值后,再除以这批词里面各网站排名到首页的词数。
这时候量化到的值,我称为「排名竞争力」。即,当一个网站已有词排上去以后,这些词倾向于排的靠前还是靠后,也就是排名好坏。
我分析过许多行业。一般「排名竞争力」这个值达到1.2的网站是做的很不错的,如果达到了1.5那非常之领先,大多情况下各网站0.8-0.9之间比较集中。如果超过了1.5,一般是刷点击刷出来的。
这个分析方法有局限性,主要是因为「排名」这件事只构成整个SEO操作环节里面的小部分效果,理论上有可能有网站做好了排名优化,整体SEO却做的不好;(SEO流量的获取,过半取决于网站覆盖了多少搜索需求)
但根据实际分析的经验,应该是因为排名是SEO里面难度最大的一部分,所以这块做很好的网站,其他方面的优化基本也都不差。

2、SEO流量的核心影响因素有哪些?

什么需求做什么事,许多回答为了提升30%的流量,先费尽力气做300%流量才要做的事,不至于。
30%增量这么简单的事,改改网页标可能就可以有。这块的具体做法道哥略提了些,只不过远不至于需要做到那样的规模就是了。设法搞百来个可以代表行业整体搜索情况的粗略的样本搜索词,分析它们的组成元素,把用户最常搜索的词写到网页的里面去。<br />举个栗子:<br />网页原标题:个人转让九成新iPhone<br />SEO改进标题:个人转让九成新iPhone - 北京二手手机<br />对于此例,写上后面一段,对于该类页面的提升就差不多是二三十个点。<br />用户撰写内容时,可能觉得写上”二手”掉价,就往往不去写它,但其他用户搜索的时候又总是搜索”二手”这个词,撰写与搜索习惯存在显著差异。<br />由SEO来填补差异,就能快速显著的提升流量。</p> <p><a name="Zf9e6"></a></p> <h3 id="1vd3n9"><a name="1vd3n9" class="reference-link"></a><span class="header-link octicon octicon-link"></span>3、百度收录量和索引量的终极解读?</h3><p>所谓收录,要去关心的话就是去解决流量问题的。而基于这个目的,要量化的总是细分页面类型的收录情况而非整站情况(站长平台索引量可以拆分部分页面类型,有时能简单点处理事情,但不推荐),这时候最佳方法一般是取页面类型所有URL再随机采样。这个解决方案在绝大多数情况下都好用。</p> <p><a name="tHjL0"></a></p> <h3 id="8527yu"><a name="8527yu" class="reference-link"></a><span class="header-link octicon octicon-link"></span><strong>4、UGC大型站点如何定制长尾词着陆页?</strong></h3><p>可能是知乎上至今见到的最到位的SEO问题,较多情况下,提升UGC内容的获取流量能力是短期效果最快且效果足够显著的方向。但限于时间先最简单的回答吧。<br />可参考以下网站,每个案例都是略有不同的优化方向:<br />新浪新闻title<br />糗事百科title<br />赶集房产栏目帖子title<br />58同城二手手机帖子发布流程(就是当自己要卖二手手机,看下发帖的时候58是怎么干预最终title的)<br />1688的供应信息title<br />仅这些几个案例如果都参考到位了,把大多类型网站的UGC类型页面的SEO流量翻一倍不算难(意思也就是如果以前有10万流量,也能快速提升10万),至少我在赶集和美团上都差不多做到过。<br />以上是针对现有UGC页面的核心优化。至于说生成其它着陆页来承载流量,这个话题涉及实在太大,就不提了。</p> <p>优化下title是一个办法。<br />ugc内容质量真正有检索价值的,可能不足20%,那么问题来了<br />站内的去推荐时候,如何选定你要推荐的结果能从搜索引擎获取流量?<br />整体就是解决query和content之间的关系,以及内容自身的打分体系<br />词库是需要自己跑出来的+人工不断维护。<br />然后按照采集site+query的思路去做,可以直接采搜索结果,可以自建全文索引,也可以利用百度的站内搜索再采集<br />然后给ugc内容打上标记,标记可以分成多个维度,比如关联的keyword,内容长度,用户数据,排名数据等等,在内部推荐上优先推荐这批质量好的,有检索价值的<br />其实这个思路做垃圾站也可以,搜索引擎从成天上万的垃圾信息中找出优质内容也很费劲的。。。帮它解决这个问题说不定就给你流量了呢</p> <p><a name="kLuUF"></a></p> <h3 id="e8qqyk"><a name="e8qqyk" class="reference-link"></a><span class="header-link octicon octicon-link"></span><strong>5、网站日志里面有很多百度假蜘蛛,怎么破?</strong></h3><p>百度IP段参考<br />^(117.28.255|119.63.196|121.10.141|121.14.89|124.248.34|125.39.78|125.90.88|159.226.50|180.76.5|203.208.60|210.72.225|222.77.187|123.125.[0-9]{1,3}|180.149.[0-9]{1,3}|220.181.[0-9]{1,3}|61.135.[0-9]{1,3}|60.191.[0-9]{1,3}).[0-9]{1,3}$<br />不一定全,可以试试</p> <p><a name="Og6KA"></a></p> <h3 id="472f7v"><a name="472f7v" class="reference-link"></a><span class="header-link octicon octicon-link"></span><strong>6、知乎和互动百科这样的网站近期百度降权对他们影响大吗?</strong></h3><p>根据经验,一天流量突然挂掉都是百度集中处理索引库所致,目前只看到过两种情况,百度bug和人工降权。网站就算服务器出问题,或者程序触发的严重降权,一般也是有个几天逐步下降的。<br />知乎肯定不至于被百度人工降权,加上其它各方面数据因素判断,基本又是百度bug。已经联系他们人了,待恢复。</p> <p><a name="hcK3z"></a></p> <h3 id="gb09zi"><a name="gb09zi" class="reference-link"></a><span class="header-link octicon octicon-link"></span><strong>7、如何根据网站日志进行分析并做出优化改进?</strong></h3><p>只说几条细节:<br />1. 日志的数据往往比GA之类统计工具的全,更适合对流量的细分分析;<br />2. 用日志数据写脚本去生成周报什么的,比GA后台慢慢查、或是用GA的API,相对方便快捷;<br />3. 可以依其数据屏蔽些页面。见到最极端例子是前公司,有个主题帖量大致十万级的论坛,其中大部分抓取,都是抓其中的“只看该作者帖子”的无意义链接。<br />———————————————————————————<br />都在说具体的日志分析操作,那么我也说几条:<br />1.精简日志<br />纯日志的大小很恶心,因为记录了很多数据,实际多数都不用。对于爬虫,仅需取URL,返回码;对于SEO流量,仅需取URL,关键词(Refer里面抽取)<br />这些需要程序来写脚本(取关键词的步骤较复杂),代码实现略。<br />2. grep -cP ‘GET 【URL】 .*?baidu.com/s\?’ access.log<br />快速查看某一页面的精确SEO流量。这可以快速的了解到该网页(或该类网页)对整站的影响是多少,从而决定对其重视与否。</p> <p>以上内容来自知乎<br /><a rel="nofollow" href="https://www.zhihu.com/people/zero-94">ZERO SEO - 知乎</a></p>