倒排索引,是适合用于进行搜索的
倒排索引的结构
(1)包含这个关键词的document list
(2)包含这个关键词的所有document
的数量:IDF
(inverse document frequency)
(3)这个关键词在每个document
中出现的次数:TF
(term frequency)
(4)这个关键词在这个document
中的次序
(5)每个document
的长度:length norm
(6)包含这个关键词的所有document
的平均长度
倒排索引不可变的好处
(1)不需要锁,提升并发能力,避免锁的问题
(2)数据不变,一直保存在os cache
中,只要cache
内存足够
(3)filter cache
一直驻留在内存,因为数据不变
(4)可以压缩,节省cpu
和io
开销
倒排索引不可变的坏处:每次都要重新构建整个索引