背景
知识学习
- 发展演进
- 专有名词
开源项目
研究项目先从开源项目开始,找一个想了解或熟悉的业务方向。
目前市面上通用大模型已经很多而且也比较成熟,但是相较于通用大模型而言很多企业或者个人都需要建立私域数据知识库问答业务。而目前如果想要搭建私域知识问答业务通常有两种方式。 一种是用私域数据在开源模型上进行训练微调;一种是结合向量检索,将专业领域知识和原始提问转化为向量,再使用通用大语言模型进行回答。 这两种方式各有利弊,基于开源模型训练微调存在成本高,包括机器成本和人力成本,另外时效性也较差,但是数据安全性更高;而第二种基于向量检索的形式,工程上需要做的工作比较多,需要文档切片,向量存储,向量检索等技术,同时需要跟通用大模型进行交互,所以会有一些数据安全风险以及一些 Token 额度的消耗。 目前业界使用的方式较多的是第二种,下面是大概的整体流程。 这个流程中向量化的过程以及问答的时候都会涉及到跟大模型进行交互,而消耗的 token 跟上下文的内容的大小都有关系。 随着行业的发展,目前第二种方案形成了很多框架,其中很著名的就是 LangChain,更有很多开源项目基于 LangChain 做了封装和开发。如果自己想实现方案将二的话,也完全可以使用 LangChain 来实现上述的整个流程。 那 LangChain 是什么? 如下图所示, 同时方案二也形成了很多行业解决方案,包括云上产品以及一些开源项目,这里给大家介绍两个,一个是开源项目 DialoqBase,一个是阿里云的 Lindorm 多模态数据库。LangChain
不懂的标颜色,依次查看是什么意思- MilVus
- Vector