节点（Node）说明 - 文档提取器节点 - 《Dify 开发文档 - 帮助手册 - 教程》

LLM 自身无法直接读取或解释文档的内容。因此需要将用户上传的文档，通过文档提取器节点解析并读取文档文件中的信息，转化文本之后再将内容传给 LLM 以实现对于文件内容的处理。

文档提取器节点可以理解为一个信息处理中心，通过识别并读取输入变量中的文件，提取信息后并转化为 string 类型输出变量，供下游节点调用。

文档提取器节点 - 图1

文档提取器节点

文档提取器节点结构分为输入变量、输出变量。

文档提取器仅接受以下数据结构的变量：

文档提取器仅能够提取文档类型文件中的信息，例如 TXT、Markdown、PDF、HTML、DOCX 格式文件的内容，无法处理图片、音频、视频等格式文件。

输出变量固定命名为 text。输出的变量类型取决于输入变量：

Array 数组变量一般需配合列表操作节点使用，详细说明请参考列表操作。

在一个典型的文件交互问答场景中，文档提取器可以作为 LLM 节点的前置步骤，提取应用的文件信息并传递至下游的 LLM 节点，回答用户关于文件的问题。

本章节将通过一个典型的 ChatPDF 示例工作流模板，介绍文档提取器节点的使用方法。

文档提取器节点 - 图2

ChatPDF 工作流

配置流程：

文档提取器节点 - 图3

填写文档提取器的输出变量

4. 配置结束节点，在结束节点中选择 LLM 节点的输出变量。

配置完成后，应用将具备文件上传功能，使用者可以上传 PDF 文件并展开对话。

文档提取器节点 - 图4

如需了解如何在聊天对话中上传文件并与 LLM 互动，请参考附加功能。