1 搜索引擎包含哪些模块?

模块 功能 技术
搜索器,既爬虫(Spider) 抓取网页搜集网页信息 文本提取、网站深度广度遍历
索引器 理解蜘蛛爬取的信息,建立和存储网页索引 分词、倒排索引、大型数据库技术
检索器 快速的根据用户输入检索网页并排名输出 分词、语义分析、排序技术
用户接口 提供可视化的输入界面,展示输出 传统网站技术

2 搜索引擎工作流程

2.1 抓取

  搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛(Spider)。Spider顺着网页中的超链接、外链,从这个网站爬到另一个网站,去跟踪网页中的链接,从页发现并访问更多的网页,在互联网中发现搜集大量的这些网页信息,将网页从互联中搜集到自己的数据库中,这个过程称为抓取。抓取的过程中,搜索引擎蜘蛛一般有两种策略:深度抓取和广度抓取
  不利于蜘蛛抓取识别的内容?
  1.网站使用js,flash,iframe框架(层级多),镶嵌table,需要登录后的页面都是不利于蜘蛛抓取的,应该尽量避免。
  2.图片太多(用alt属性辅佐识别)

2.2 过滤

  为了避免重复爬行和抓取网址,造成太多垃圾,从而影响用户体验,搜索引擎在抓取之后会通过各种算法对所有的网页进行过滤,过滤一些作弊的网站,如低质量的内容页面,或是采集,文不对题,对用户没有价值的内容进行降权,提取展示优质的网站和信息

2.3 存储库索引

  搜索引擎会对信息进行有质量提取和组织建立索引库,当有用户搜索哪个关键词时,搜索只需要在存储索引数据库中进行查找。

2.4 展示排名

  数据抓取过虑完毕,接下来要做的就是排名了。当我们在搜索引擎看到的只是一结果,搜索引擎会根据信息的有效性,原创性和信息的认可度,网站自身权重等综合算法给于相应的排名显示,对搜索用户的搜索做统计,最后根据该用户搜索习惯给出相应结果。

3 搜索引擎分类

3.1 全文搜索引擎

此类搜索引擎最为不易,首先其遍历的网络空间比较大,对网页提取关键词,建立倒排索引,索引库非常庞大,往往查询结果不够准确。

3.2 分类目搜索引擎

通常人工编辑目录,收集网站,内容较准确,但是收录的网站往往不够多。

3.3 元搜索引擎

此类搜索引擎往往没有自己的爬虫和索引库,而是通过调用、优化整合其他所搜引擎的搜索结果并以一定格式集中展示。这其中设计元搜索技术。搜索效果较好,如WebCrawler。

3.4 集成搜索引擎

如何hao123和http://www.isys.top,可以选不同的搜索引擎,显示其搜索结果。

[吐槽部分] 本部分参考百度百科,实际上后三种搜索引擎大可不提。网址导航算搜索引擎?调用别人搜索引擎结果展示算搜索引擎?可以调用不同搜索引擎搜索能算搜索引擎? 基于知识库知识图谱的语义搜索引擎不配拥有姓名?十大搜索引擎之一的WolframAlpha是一个计算知识引擎,显然不在上述列表。像携程这样的只对特定领域网站进行处理汇总的,在别的文献里被分类为垂直搜索引擎。

4. 关键技术

4.1 网络空间的遍历

网络空间可以看做树,也可以看做图,每个链接指向的网页的所有链接可以视作树的子节点,树的遍历分为深度优先和广度优先。

4.2 倒排索引数据库建立

倒排索引结构如下图所示,使用倒排索引可以快速根据关键词找到包含关键词的网页。
image.png

4.3 排名方法

4.4 语义化检索

5 已有哪些著名搜索引擎?

5.1 最常见的google、baidu、bing、yahoo

5.2 其他十大搜索引擎

  1. Ask,是一个专注于问答的搜索引擎,收录超过1000万个问题的答案,知乎的问题规模如何?
  2. Aol, Aol Search是美国在线旗下搜索引擎网站,技术来自于google。
  3. DuckDuckGo,其特色是不搜集用户隐私信息。
  4. WolframAlpha其实是一个计算知识引擎,它真正的创新之处在于能够马上理解问题,并给出答案。
  5. Yandex搜索引擎是俄罗斯第一大搜索引擎。
  6. WebCrawler是一个融合来自谷歌搜索和雅虎搜索等世界著名的搜索结果的元搜索引擎。(他要是没广告,应该会挺受欢迎)

    [吐槽部分] 百度虽烂,但是中文搜搜引擎还轮不到360搜索、搜狗搜索呢。小众的多吉搜索https://www.dogedoge.com和鸠摩文档搜索https://www.jiumodiary.com/用起来挺香的。

参考文章

https://www.jianshu.com/p/9f158d1c18c9
https://baijiahao.baidu.com/s?id=1619646066367832426
https://baike.baidu.com/item/搜索引擎原理
https://baike.baidu.com/item/搜索引擎基本工作原理
https://news.mydrivers.com/1/544/544175.htm
https://www.zhihu.com/question/19937854
https://www.jianshu.com/p/d24a7bac3cab