互联网搜索引擎整体架构

image.png

爬虫系统架构

image.png

爬虫禁爬协议

image.png

文档矩阵与倒排索引

image.png

文档与倒排索引

image.png

带词频的倒排索引

image.png

带词频与位置的倒排索引

image.png

Lucene 架构

image.png

Lucene 倒排索引

image.png

Lucene 索引文件准实时更新

image.png

ElasticSearch 架构

image.png

ES 分片预分配与集群扩容

image.png

网页排名算法 PageRank

PageRank,网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以 Google 公司创始人拉里佩奇的姓来命名。

PageRank 让链接来投票

image.png

image.png

PageRank 算法

image.png
image.png

image.png
image.png

image.png

image.png

image.png

image.png

一个电影搜索引擎案例

image.png

文档文件 subject.dat

image.png

倒排索引文件

image.png

加权词频排序算法

image.png

源码

汉语处理组件包(汉语分词)

https://github.com/hankcs/HanLP

image.png

一个智能助理机器人案例

https://github.com/zhihuili/robot

image.png

image.png