1 简介
- 搜索引擎
根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户系统。
- 通用搜索引擎:信息量大,例如,百度、谷歌、搜狗等。
- 垂直搜索引擎:专注于特定的搜索领域和搜索需求,例如:机票搜索、旅游搜索、生活搜索、购物搜索等。
- 集合式搜索引擎:类似元搜索引擎,用户从提供的若干个搜索引擎中选择,例如HotBot(2002年底推出的搜索引擎)。
- 门户搜索引擎:MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
- 信息检索:从信息集合中找出来与用户需求相关的信息,被检索的信息除了文本外,还有图像、音频、视频等多媒体信息。
- 信息检索技术分类:全文检索、数据检索、知识检索。(我们要学习的就是全文检索技术——Lucene)。
- Lucene是非常优秀的成熟的开源的免费的纯java语言的全文索引检索工具包,即它不是一个完整的全文检索,而是全文检索架构,提供了完整的查询引擎和索引引擎,部分的文本分析引擎。
- Lucene是一套用于全文检索和搜寻的开放源码程序库,它提供了一个简单却强大的应用程序接口。
- Lucene是一个高性能、可伸缩的信息搜索(IR)库而不是现成的产品,它可为你的应用程序添加索引和搜索功能。
- 全文检索:把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文本语义上的匹配。在信息检索工具中,全文检索是最具有通用性和实用性的。
- 一种将文件中所有文本与检索项匹配的文字资料检索方法。
- 从大量的信息中快速、准确地查找出需要的信息
- 搜索内容为文本信息
- 搜索方式:根据关键词搜索,并不是根据语义进行处理
- 关键指标: 全面 快速 准确

- Lucene是一套信息检索工具包,但并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能,因此在使用Lucene时你仍需要关注搜索引擎系统,例如数据获取、解析、分词等方面的东西。
