搜商、检索、推荐系统、大数据、数据应用、深度学习、自然语言处理、Google、协同过滤算法、搜索排序

1 搜商

  1. 面对海量信息的重重包围,面对信息爆炸时代的降临,人类通过工具获取知识的能力快速升级。搜商理论的诞生,是对现有人类情商和智商的完美补充。
  2. 搜商(Search Quotient, SQ)的第一种概念的提出者黄泰山,后来跨领域经济学家陈云进行了多次完善,则认为搜商更多的是通过搜索技能解决问题的能力, 黄泰山认为搜商不同于情商和智商的地方在于,搜商马上让人得到结果,有时是问题的解决方法,有时是解决问题的线索而且是基于庞大的网民和专家的智慧的结果,因此搜商让人类第一次可以最大程度的站在整个人类智慧的基础上去解决问题。因此,黄泰山给出的搜商公式是:

$ SQ=M(S)\cdot IQ\cdot EQ $

  1. 该公式中$ M(S)=Mind(sourcing) $表示的是搜寻意识,$$IQ=$$智商,$$EQ=$$情商。此概念更多强调的是搜寻意识,而同时搜商也与智商和情商密切成正比,很好地给出了搜商与智商、情商的关系和区别。
  2. 该概念的另一提出者陈沛提出了另外一个搜商公式:

$ SQ=K/T(C) $

  1. 其中$$K=knowledge$$知识,$$T=time$$时间,$$C=$$搜商指数(社会平均知识获取能力)。可见,搜商理论更加注重时间和知识的比值,也就是说,搜商关心和解决的问题是智商和情商不能度量的问题———学习效率。

2 提高搜商方法

2.1 掌握信息检索技术

  1. 掌握信息检索技术要求了解搜索引擎的检索逻辑,学会同义词转换调整关键词,调整检索约束来放大缩小检索范围。

2.2 提高信息应用与评价能力

  1. 要提高搜商,除了需要掌握快速检索出相关信息和知识的方法,还要能够评价信息价值的能力。尤其在现在这个大数据时代,冗余信息是常见的,提高信息应用于评价能力能够有效筛选相关信息,从而提取出最重要的知识。

2.3 召回率与精确率

  1. 召回率和精确率是一个有效的量化指标用于衡量检索能力的高低。召回率,又称查全率,用于衡量检索信息的完整性,判断是否能将所有相关信息都检索出来。而精确率,又称查准率,用于衡量检索信息的准确率,判断是否会把无关信息检索出来。

3 机器辅助搜索

3.1 搜索引擎算法

3.1.1 Google PageRank算法

  1. PageRank算法是一种根据页面之间的超链接计算的技术,GooglePageRank来体现页面的相关性和重要性,这也是在搜索引擎优化中经常被用来评估页面优化效果的因素之一。

3.1.2 Google HillTop算法

  1. HillTop算法的指导思想与PageRank是一致的,都是通过页面被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。

3.1.3 Google 熊猫算法

  1. 熊猫算法是反垃圾网站的,主要是降低低质量网站的排名,同时也是评判页面级别的标准之一。
  2. 熊猫演算法主要审查网页内容是否出现以下情况:
  3. 1.内容薄弱:每个页面的内容都非常少,内容几乎和网页没有相关性,或内容相当少的网页。
  4. 2.重复内容:站内出现多个页面都是相同,或几乎一样的内容。
  5. 3.低质量的内容:缺乏深入资讯,或缺乏具有建设性的内容,对用户来说毫无价值的页面。
  6. 4.内容农场:网站内容来源通常都来自其他网站,非原创性内容。内容农场的目的大多是大量生产内容,为的是提升该网站的 SEO排名。
  7. 5.内容和关键词相关性低:若网站设定SEO为核心关键词,实际上网页内容都是广告,并没有SEO相关资讯,这种情况就是内容 和关键词相关性低。

3.1.4 Google 企鹅算法

  1. 企鹅算法主要是来打击过分使用搜索引擎优化(SEO)手段来提升排名的网站。
  2. 不少黑帽SEO的做法是操纵外链,将链接大量指向同一个网站以提升SEO排名。但该网站和被链接的网站并不具有相关性,这种情况很容易被企鹅算法认定为恶意链接,且违反搜索引擎规则,接着受到惩罚。若外部链接来源是低质量或内容不相关的网站,且这种外链数量相当大,可能会被企鹅算法视为是通过购买外链等操作。

3.1.5 Google 蜂鸟算法

  1. 蜂鸟算法针对用户的搜索意图进行更复杂的分析,甚至了解用户口语化的搜索,就像人工智能一样,让用户有更好的体验,快速且精准地获得自己想要的搜索结果。

3.2 推荐算法

3.2.1 传统推荐算法

  1. 传统的推荐算法主要分为 3 大类: 协同过滤推荐算法、基于内容(content-based) 的推荐算法、混合(Hybrid) 推荐算法。
  2. **协同过滤算法**
  3. 协同过滤算法是推荐系统应用最广泛的算法,主要分为基于内存(又称基于近邻)的协同过滤算法(memory-based CF)和基于模型的协同过滤算法(model-based CF)。
  4. 基于内存的协同过滤算法又分为基于用户的协同过滤算法(User CF) 和基于物品的协同过滤算法(Item CF)。基于用户的协同过滤算法是最早出现的推荐算法,算法首先计算和目标用户兴趣相似的用户集合,然后为目标用户推荐该相似用户集合中用户喜欢且未接触过的物品。基于物品的协同过滤算法是目前业界应用最多的算法,该算法给用户推荐那些和他们之前喜欢的物品相似的物品。Item CF 算法并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算物品之间的相似度。
  5. 基于模型的协同过滤算法主要通过机器学习和数据挖掘模型,利用分类、回归、矩阵分解等算法提取用户和物品的隐含模式进行推荐。其中代表性的有基于贝叶斯信念网络的算法、基于聚类模型的算法、基于回归模型的算法、基于矩阵分解模型的算法等。与基于内存的协同过滤算法相比,基于模型的协同过滤据算法具有较好的理论基础,且占用内存小,可缓解基于内存的方法中的数据稀疏和可扩展性弱等问题,同时提高了推荐算法的精度,但其无法提供推荐解释。
  6. **基于内容的推荐算法**
  7. 基于内容的推荐算法通过分析物品内容信息(如物品属性、描述等),提取用户对物品的兴趣偏好进行推荐。物品的内容可通过物品属性的向量空间模型表示,若物品内容是文本形式,则需要引入自然语言处理技术抽取关键词,生成关键词向量。根据物品向量计算物品的相似度,利用 Item CF 算法的思想,给用户推荐和其历史上喜欢的物品内容相似的物品。一般认为协同过滤算法优于基于内容的推荐算法,但协同过滤存在冷启动和数据稀疏问题,基于内容的推荐算法常被用于评分数据非常稀疏的场景和解决物品的冷启动问题。此外,在物品内容特征非常强的情况下,基于内容的推荐算法更有优势。
  8. **混合推荐算法**
  9. 混合推荐算法通过组合多种推荐技术解决单一推荐模型的不足。根据组合方法的不同,可大致分为6类混合推荐算法: 加权混合推荐算

法、交叉调和推荐算法、特征混合的推荐系统、瀑布型混合方法、特征扩充的推荐算法、元模型混合推荐算法。

3.2.2 基于深度学习的推荐算法

  1. 当前基于深度学习的推荐算法研究分为 4 类:利用辅助信息的深度学习推荐算法;基于模型的深度学习推荐算法;动态深度学习推荐算法;基于标签的深度学习推荐算法。
  2. **利用辅助信息的深度学习推荐算法**
  3. 利用辅助信息的深度学习推荐算法利用辅助信息和深度学习提取用户和物品的分布式特征表示并融合其他模型进行推荐,是深度学习在推荐领域应用最多的方法。辅助信息主要包括用户的人口学特征、物品内容特征、上下文特征(时间上下文、位置上下文、环境上下文)等。
  4. **基于模型的深度学习推荐算法**
  5. 基于模型的深度学习推荐算法通过直接对评分矩阵进行学习提高推荐系统性能,有基于RBM的协同过滤算法、基于自动编码器的推荐算法、基于矩阵分解的社交网络信任推荐模型。
  6. **动态深度学习推荐算法**
  7. 动态深度学习推荐算法是针对用户兴趣和物品内容是随时间发生变化的, 如何对用户和物品的动态特征建模问题而研究的推荐算法。主要分为基于深度循环神经网络的动态推荐算法;组合循环神经网络RNN、卷积神经网络CNN、深度神经网络DNN等多种深度学习算法进行推荐。
  8. **基于标签的深度学习推荐算法**
  9. 基于标签的深度学习推荐算法是利用用户的标签数据来提高个性化推荐结果的质量。基于标签的深度学习算法主要利用深度学习从“物品-标签”、“用户-标签”和“用户-物品”矩阵中学习用户和物品的深度特征表示进行物品推荐。

机器辅助人工检索逻辑图

搜商 - 图1

参考

[1] https://baike.baidu.com/item/搜商/228466?fr=aladdin

[2] Zhang Jun Li. The Training of University Librarians Search Quotient Ability Based on the Network Big Data Background[A]. Academic Publishing House. International Journal of Computational and Engineering(SEPTEMBER 2016 V1 N3)[C].:Academic Publishing House,2016:4.

[3] https://zhuanlan.zhihu.com/p/102526901

[4] https://baijiahao.baidu.com/s?id=1678515387169982749&wfr=spider&for=pc

[5] 王俊淑,张国明,胡斌.基于深度学习的推荐算法研究综述[J].南京师范大学学报(工程技术版),2018,18(04):33-43.