1【抓取建库】

    主要抓取策略:
    1,抓取友好性:抓取压力调节,
    2,常见返回码:404删库且短期不抓取;503多次访问,存在则继续,不存在删库;403同503;301
    3,url重定向:30x,refresh,js,canonical
    4,抓取优先级:深度优先、宽度优先、pr优先、反链、社会化分享等策略联合使用
    5,重复url过滤
    6,暗网数据获取:百度开放平台,百度站长平台
    7,抓取反作弊

    抓取频次的调整:
    1,更新频率
    2,更新质量
    3,连通度
    4,站点评价—百度内部数据

    死链问题:
    页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:
    协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
    内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
    对于死链,我们建议站点使用协议死链,并通过百度站长平台—死链工具向百度提交,以便百度更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。

    异常跳转:将网络请求重新指向其他位置即为跳转。异常跳转指的是以下几种情况:
    当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉
    跳转到出错或者无效页面

    新链接重要程度判断:
    第一,对用户的价值:
    1,内容独特,百度搜索引擎喜欢unique的内容
    2,主体突出,切不要出现网页主体内容不突出而被搜索引擎误判为空短页面不抓取
    3,内容丰富
    4,广告适当
    第二,链接重要程度:
    1,目录层级——浅层优先
    2,链接在站内的受欢迎程度

    优质库、普通库、低质库
    搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。
    目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。
    哪些网页可以进入优质索引库呢。其实总的原则就是一个:对用户的价值。包括却不仅于:
    1,有时效性且有价值的页面:在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的.
    2,内容优质的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富全面的内容。
    3,高价值原创内容页面:百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。
    4,重要个人页面:这里仅举一个例子,科比在新浪微博开户了,即使他不经常更新,但对于百度来说,它仍然是一个极重要的页面。

    哪些网页无法建入索引库
    上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。那怎样的网页在最初环节就被过滤掉了呢:
    1, 重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。
    2, 主体内容空短的网页
    1)有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃
    2)加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。
    3)很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。
    3, 部分作弊网页

    2【检索排序】

    理解倒排索引,切词分词

    影响搜索结果排序的因素
    1,相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等
    2,权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索引擎也更相信优质权威站点提供的内容。
    3,时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。
    4,重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度
    5,丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。
    6,受欢迎程度:指该网页是不是受欢迎。

    3【外部投票】

    超链在发挥着怎样的作用?
    1, 吸引蜘蛛抓取:虽然百度在挖掘新好站点方面下了很大工夫,开放了多个数据提交入口,开避了社会化发现渠道,但超链依然是发现收录链接的最重要入口。
    2, 向搜索引擎传递相关性信息:百度除了通过TITLE、页面关键词、H标签等对网页内容进行判断外,还会通过锚文本进行铺助判断。使用图片作为点击入口的超链,也可以通过alt属性和title标签向百度传情达意。
    3, 提升排名:百度搜索引擎虽然降低了对超链的依赖,但对超链的识别力度从未下降,制定出更加严格的优质链接、正常链接、垃圾链接和作弊链接标准。对于作弊链接,除了对链接进行过滤清理外,也对链接的受益站进行一定程度的惩罚。相应的,对优质链接,百度依然持欢迎的态度。
    4, 内容分享,获取口碑:优质内容被广泛传播,网站借此获得的流量可能并不多,但如果内容做得足够,也可以树立自己的品牌效应。

    4【结果展现】

    结构化数据——助力站点获得更多点击

    站长可以通过什么途径获得结果化展现呢:
    1,参与原创星火计划:百度站长平台VIP俱乐部提供申请入口,需要经过人工审核后进行数据提交
    2,结构化数据提交工具:zhanzhang.baidu.com/wiki/197
    3,结构化数据标注工具:zhanzhang.baidu.com/itemannotator/index(404)
    4,搜索结果配图:具体要求为,在文章主体位置;图片与内容相关;图片上没有文字;图片比例接近121*91