这部分想写好还是困难的

    1. 一般意义上,“正排”索引就是拿着字符串去网页、文件里一个一个找,这样的效率无疑是很低的,而倒排文件索引就是在建立索引时就确定字符串在哪个网页的哪里出现过在,这样查找时不需要再一个一个查找,其结构可以理解为:<br />![](https://cdn.nlark.com/yuque/0/2022/jpeg/22181361/1647318984120-a0392cee-168d-48d6-9bdc-f9a4a87e1e42.jpeg)<br />一个简化的索引生成过程可以描述为:<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/22181361/1647318436969-38977d78-7cbc-4f3c-aa15-ceb7208ca6af.png#clientId=u8a82f02e-6432-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=367&id=u2f68f8f6&margin=%5Bobject%20Object%5D&name=image.png&originHeight=732&originWidth=1098&originalType=binary&ratio=1&rotation=0&showTitle=false&size=53315&status=done&style=shadow&taskId=u45605554-09ee-4970-a146-c207f715821&title=&width=550)<br />当读入一个term时,我们需要
    • 提取词根
    • 检查 Stop Words ( 那些大量出现的词,e.g. and )

    image.png
    建立索引的方式有很多种,常用的是B树、B+树、Tries和Hashing。
    当我们的内存不足以将索引在一台机器上建立时,可以考虑分布式索引:
    image.png
    两个新概念:Precision 和 Recall
    precison 是在查询到的文件中相关的比例,recall 是相关的文件中被查询到的比例。
    image.pngimage.png