互联网搜索引擎整体架构
爬虫系统架构
爬虫禁爬协议
文档矩阵与倒排索引
文档与倒排索引
带词频的倒排索引
带词频与位置的倒排索引
Lucene 架构
Lucene 倒排索引
Lucene 索引文件准实时更新
ElasticSearch 架构
ES 分片预分配与集群扩容
网页排名算法 PageRank
PageRank,网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以 Google 公司创始人拉里佩奇的姓来命名。
PageRank 让链接来投票
PageRank 算法
一个电影搜索引擎案例
文档文件 subject.dat
倒排索引文件
加权词频排序算法
源码
- Web 应用:https://github.com/itisaid/sokeeper
- 爬虫、倒排索引构建:https://github.com/itisaid/cmdb ���������
汉语处理组件包(汉语分词)
https://github.com/hankcs/HanLP