管理知识库中的文档

添加文档

知识库是文档的集合。文档支持本地上传,或导入其它在线数据源。知识库内的文档对应数据源中的一个文件单位,例如 Notion 库内的一篇文档或新的在线文档网页。

点击“知识库” → “文档列表” → “添加文件”,在已创建的知识库内上传新的文档。

维护知识库内文档 - 图1

在知识库内上传新文档

启用 / 禁用 / 归档 / 删除文档

启用:处于正常使用状态的文档,支持编辑内容与被知识库检索。对于已被禁用的文档,允许重新启用。已归档的文档需撤销归档状态后才能重新启用。

禁用:对于不希望在使用 AI 应用时被检索的文档,可以关闭文档右侧的蓝色开关按钮以禁用文档。禁用文档后,仍然可以编辑当前内容。

归档:对于一些不再使用的旧文档数据,如果不想删除可以将其归档。归档后的数据就只能查看或删除,无法重新编辑。你可以在知识库文档列表,点击归档按钮;或在文档详情页内进行归档。归档操作支持撤销。

删除:⚠️ 危险操作。对于一些错误文档或明显有歧义的内容,可以点击文档右侧菜单按钮中的删除。删除后的内容将无法被找回,请进行谨慎操作。

以上选项均支持选中多个文档后批量操作。

维护知识库内文档 - 图2

禁用或归档文档

注意:

如果你的知识库中有部分文档长时间未更新或未检索时,为了确保知识库的高效运行,系统会暂时禁用这部分不活跃的文档。

  • 对于 Sandbox/Free 版本用户,未使用知识库的将在 7 天后自动禁用;

  • 对于 Professional/Team 版本用户,未使用知识库的将在 30 天后自动禁用。

你随时可以前往知识库中重新启用它们以恢复正常使用。付费用户可以使用“一键恢复”功能快速启用所有被禁用的文档。

维护知识库内文档 - 图3

一键恢复被禁用的文档


管理文本分段

查看文本分段

知识库内已上传的每个文档都会以文本分段(Chunks)形式进行存储。点击文档标题,在详情页中查看当前文档的分段列表,每页默认展示 10 个区块,你可以在网页底部调整每页的展示数量。

每个内容区块展示前 2 行的预览内容。若需要查看更加分段内的完整内容,轻点“展开分段”按钮即可查看。

维护知识库内文档 - 图4

展开内容分段

你可以通过筛选栏快速查看所有已启用 / 未启用的文档。

维护知识库内文档 - 图5

筛选文档分段

不同的文本分段模式对应不同的文本分段查看方式:

通用模式父子模式Q&A 模式(仅用于社区版)

通用模式

通用模式下的文本分段为独立的区块。若希望查看区块内的完整内容,轻点右上角的全屏 icon 进入全屏阅读模式。

维护知识库内文档 - 图6

进入全屏阅读模式

点击顶部文档标题即可快速切换至当前知识库内的其它文档。

维护知识库内文档 - 图7

通用模式-内容分段

父子模式

父子模式下的内容分为父分段和子分段。

  • 父分段

    选择知识库内的文档后,你将会首先看到父分段的内容。父分段存在“段落”分段与“全文”分段两种模式,提供更加完整的上下文信息。下图为不同分段模式的文本预览差异。

维护知识库内文档 - 图8

段落与全文的预览差异

  • 子分段

    子分段一般为段落中的某个句子(较小的文本块),包含细节信息。各个分块均会展示字符数以及被检索召回的次数。轻点“子分段”即可查看更多详细内容。若希望查看区块内的完整内容,轻点区块右上角的全屏 icon 进入全屏阅读模式。

维护知识库内文档 - 图9

父子模式-内容分段

Q&A 模式

在 Q&A 模式下,一个内容区块包含问题与答案,轻点任意文档标题即可查看文本分段。

维护知识库内文档 - 图10

Q&A 模式 - 查看文本分段


检查分段质量

文档分段对于知识库应用的问答效果有明显影响,在将知识库与应用关联之前,建议人工检查分段质量。

通过字符长度、标识符或者 NLP 语义分段等机器自动化的分段方式虽然能够显著减少大规模文本分段的工作量,但分段质量与不同文档格式的文本结构、前后文的语义联系都有关系,通过人工检查和订正可以有效弥补机器分段在语义识别方面的缺点。

检查分段质量时,一般需要关注以下几种情况:

  • 过短的文本分段,导致语义缺失;

维护知识库内文档 - 图11

过短的文本分段

  • 过长的文本分段,导致语义噪音影响匹配准确性;

维护知识库内文档 - 图12

过长的文本分段

  • 明显的语义截断,在使用最大分段长度限制时会出现强制性的语义截断,导致召回时缺失内容;

维护知识库内文档 - 图13

明显的语义截断


添加文本分段

知识库中的文档支持单独添加文本分段,不同的分段模式对应不同的分段添加方法。

添加文本分段为付费功能,请前往此处升级账号以使用功能。

通用模式父子模式Q&A 模式(仅用于社区版)

通用模式

点击分段列表顶部的 “添加分段” 按钮,可以在文档内自行添加一个或批量添加多个自定义分段。

维护知识库内文档 - 图14

通用模式 - 添加分段

手动添加文本分段时,你可以选择添加正文和关键词。内容填写后,勾选尾部的“连续新增”按钮后,可以继续添加文本。

维护知识库内文档 - 图15

通用模式 - 添加文本分段

批量添加分段时,你需要先下载 CSV 格式的分段上传模板,并按照模板格式在 Excel 内编辑所有的分段内容,再将 CSV 文件保存后上传。

维护知识库内文档 - 图16

通用模式 - 批量添加自定义分段

父子模式

点击分段列表顶部的 「 添加分段 」 按钮,可以在文档内自行添加一个或批量添加多个自定义父分段。

维护知识库内文档 - 图17

父子模式 — 添加区块

填写内容后,勾选尾部的“连续新增”按钮后,可以继续添加文本。

维护知识库内文档 - 图18

父子模式 - 添加内容区块

支持在父分段内单独添加子分段。轻点父分段内子分段右侧的“添加”,即可单独添加子分段。

维护知识库内文档 - 图19

父子模式 — 添加子分段

Q&A 模式

点击分段列表顶部的 「 添加分段 」 按钮,可以在文档内自行添加一个或批量添加多个问题-答案内容对区块。


编辑文本分段

通用模式父子模式Q&A 模式(仅适用于社区版)

通用模式

你可以对已添加的分段内容直接进行编辑或修改,包括修改分段内的文本内容或关键词。

为避免遗忘导致的重复编辑,编辑后内容区块将出现“已编辑”标签提示。

维护知识库内文档 - 图20

编辑文档分段

父子模式

父分段包含其本身所包含的子分段内容,两者相互独立。你可以单独修改父分段或子分段的内容。下图为修改父子分段间的流程说明:

维护知识库内文档 - 图21

修改父子分段原理图

修改父分段:轻点父分段右侧的编辑按钮,填写内容。点击“保存”后将不会影响子分段的内容。如需重新生成子分段内容,轻点“保存并重新生成子分段”

为避免遗忘导致的重复编辑,编辑后内容区块将出现“已编辑”标签提示。

维护知识库内文档 - 图22

父子模式 - 修改父分段

修改子分段:选择任意子分段后进入编辑模式,修改完成后即可保存。修改后不会影响父分段中的内容。被编辑过或新增的子分段区块会被打上 C-NUMBER-EDITED的深蓝色标签。

你也可以将子段视作当前父文本块的标签。

维护知识库内文档 - 图23

父子模式 - 修改子分段

Q&A 模式

在 Q&A 分段模式下,一个内容区块包含问题与答案。点击需要编辑的文本分段,可以分别对问题和答案内容做出修改;同时也支持修改当前区块的关键词。

维护知识库内文档 - 图24

Q&A 模式 - 修改文本分段


元数据管理

除了用于标记不同来源文档的元数据信息,例如网页数据的标题、网址、关键词、描述等。元数据将被用于知识库的分段召回过程中,作为结构化字段参与召回过滤或者显示引用来源。

维护知识库内文档 - 图25

元数据管理