介绍

目前DB-GPT知识库提供了文档上传 -> 解析 -> 切片 -> Embedding -> 知识图谱三元组抽取 -> 向量数据库存储 -> 图数据库存储等知识加工的能力,但是不具备对文档进行复杂的信息抽取能力,包括同时对文档块进行向量抽取和知识图谱抽取,混合知识加工模版通过定义复杂的知识处理工作流,同时支持对文档的向量抽取,关键词抽取和知识图谱抽取。

适用场景

  • 不仅限于传统的,单一的知识加工流程(仅Embedding加工或者知识图谱抽取加工),知识加工workflow实现同时进行Embedding,知识图谱抽取,作为混合知识召回检索数据储备。
  • 用户可以根据自身业务场景,对已有的知识加工流程进行裁剪和新增。

如何使用

  • 进入AWEL界面并新增工作流

混合知识加工 - 图1

  • 导入知识加工模版

混合知识加工 - 图2

  • 调整参数并保存

混合知识加工 - 图3

  1. - `文档知识加载算子`: 知识加载工厂,通过加载指定的文档类型,找到对应的文档处理器进行文档内容解析。
  2. - `文档Chunk切片算子`:将加载好的文档内容按照指定的切片参数进行切片处理。
  3. - `知识加工处理分支算子`:可以连接不同的知识加工流程,包括知识图谱加工流程,向量加工流程,关键词加工流程。
  4. - `向量存储加工算子`:可以连接不同的向量数据库进行向量存储,同时也可以连接不同的Embedding模型和服务进行向量抽取。
  5. - `知识图谱加工算子`:可以连接不同的知识图谱加工算子,包括原生知识图谱加工算子,社区总结知识图谱加工算子等,同时可以指定不同的图数据库进行存储,目前支持TuGraph数据库。
  6. * <font style="color:#DF2A3F;">注意:</font>需要先安装图数据库环境 参考:[Graph RAG User Manual | DB-GPT](http://docs.dbgpt.cn/docs/cookbook/rag/graph_rag_app_develop)
  7. - `结果聚合算子`:将向量抽取结果和知识图谱抽取结果进行汇总处理。
  • 注册发布为http请求
  1. curl --location --request POST 'http://localhost:5670/api/v1/awel/trigger/rag/knowledge/hybrid/process' \
  2. --header 'Content-Type: application/json' \
  3. --data-raw '{}'
  1. [
  2. "async persist vector store success 9 chunks.",
  3. "async persist graph store success 9 chunks."
  4. ]