全新推出 Knowledge Pipeline
摘要:本文介绍 Dify 全新推出的 Knowledge Pipeline。该可视化工作流将杂乱的企业管理数据转化为高质量 LLM 上下文,解决传统 RAG 数据源分散、解析丢失与流程不透明等痛点。通过模块化节点、丰富集成与可观测调试,助力企业高效构建可复用、低成本的 RAG 应用。
今天,我们正式推出全新的 Knowledge Pipeline。这是一款可视化工作流,能够将杂乱的企业管理数据转化为高质量的 LLM 上下文。
在大多数企业中,瓶颈往往不在模型本身,而在于非结构化数据的上下文工程。关键信息散落在 PDF、PPT、Excel、图片和 HTML 等文件中。核心挑战在于,如何将分散、异构且持续变化的内部数据,转化为 LLM 可稳定消费的可靠上下文。这绝非简单的数据导入,而是一套需要精心设计、调优与可观测性的系统工程。
传统 RAG 在处理企业数据时,常受限于三大痛点:
- 数据源分散:数据分布在 ERP、Wiki、邮件和网盘中。各系统认证方式与格式各异,逐一对接成本高昂。
- 解析丢失:解析后文档变为纯文本,图表和公式往往丢失。若分块策略过于简单,还会进一步破坏文档逻辑。最终 LLM 只能基于残缺片段作答。
- 流程黑盒:各处理步骤缺乏透明度。一旦出错,难以定位是解析、分块还是嵌入环节的问题,排查与复现极为困难。
Knowledge Pipeline 正是为上下文工程补齐的关键数据基础设施。借助可视化工作流,团队可全程掌控从原始数据源到可信上下文的完整链路。
可视化编排的 Knowledge Pipeline
Knowledge Pipeline 继承了 Dify Workflow 的画布体验,让 RAG 的 ETL 链路完全透明。每个处理步骤都是一个独立节点。从数据源接入、文档解析到分块策略,你都可以为文本、图片、表格和扫描件选择最匹配的插件。依托 Dify Marketplace,团队能够像搭积木一样组装文档处理流水线,并针对特定行业与数据类型定制专属流程。

按需灵活扩展:支持在流水线中嵌入 If-else、Code 和 LLM 等 Workflow 节点。利用模型进行内容增强,使用代码执行规则清洗,真正实现高度灵活的控制。
企业级数据源集成
Knowledge Pipeline 将“数据源”作为全新插件类型引入。每个知识库均可直连多种非结构化数据源,无需编写自定义适配器或认证代码。直接从 Marketplace 按需选取,或通过标准接口快速开发自有系统的连接器。
目前已支持的数据源包括:
- 本地文件:支持 PDF、Word、Excel、PPT、Markdown 等 30 余种格式。
- 云存储:Google Drive、AWS S3、Azure Blob、Box、OneDrive、Dropbox。
- 在线文档:Notion、Confluence、SharePoint、GitLab、GitHub。
- 网页抓取:Firecrawl、Jina、Bright Data、Tavily。

可插拔的数据处理流水线
我们将处理流程拆解为标准节点,确保流水线具备可预测性与可扩展性。你可根据实际场景自由替换插件。
- Extract(提取):支持多源数据接入。后续步骤会自动适配上游输出类型(文件对象或页面内容),涵盖文本与图片。
- Transform(转换):流水线核心,包含四个阶段:
Parse(解析):按文件类型选择最优解析器,提取文本与结构化元数据。针对扫描件、表格或 PPT 文本框排序,支持多解析器并行运行,避免信息丢失。Enrich(增强):利用LLM和Code节点完成实体抽取、摘要生成、分类、脱敏等任务。Chunk(分块):提供三种策略:General(通用)、Parent-Child(父子级)和Q&A(问答对)。分别适用于常规文档、长篇技术文件及结构化表格查询。Embed(向量化):支持按成本、语言、维度等指标,从不同提供商选择嵌入模型。- Load(加载):将向量与元数据写入知识库并构建高效索引。支持高质量向量索引与低成本倒排索引。可配置元数据标签,实现精准过滤与权限控制。

处理完成后,检索阶段支持 vector(向量)、full text(全文)或 hybrid(混合)策略。结合元数据过滤与重排序(Reranking),可返回带原始出处的精准结果。最终由 LLM 整合图文内容,生成准确且体验更佳的答案。
可观测的调试体验
传统流水线如同黑盒。Knowledge Pipeline 支持逐步执行 Test Run(测试运行),并实时检查每个节点的输入与输出。Variable Inspect(变量检查)面板会动态展示中间变量与上下文,助你快速定位解析错误、分块异常或元数据缺失等问题。

验证无误后,一键发布流水线,即可进入标准化处理流程。详细操作指南请查阅官方文档。
开箱即用的场景模板
内置 7 款模板,助你快速上手:
- 通用文档处理 - General Mode (ECO):采用经济型索引,按段落切分。适合大批量文档处理。
- 长文档处理 - Parent-Child (HQ):层级化父子分块,兼顾局部精度与全局上下文。适合长篇技术文档与报告。
- 表格数据提取 - Simple Q&A:提取表格指定列,构建结构化问答对,支持自然语言查询。
- 复杂 PDF 解析 - Complex PDF with Images & Tables:精准提取 PDF 中的图片与表格,赋能下游多模态检索。
- 多模态增强 - Contextual Enrichment Using LLM:调用 LLM 描述图片与表格内容,提升检索效果。
- 文档格式转换 - Convert to Markdown:将 Office 格式转为 Markdown,兼顾处理速度与兼容性。
- 智能问答生成 - LLM Generated Q&A:从长文档中自动提炼核心问答对,构建精准知识节点。
RAG 插件生态
Dify 提供由官方、合作伙伴与社区共同构建的开放插件生态。基于插件化架构,企业可按需灵活选型:
- Connector(连接器):Google Drive、Notion、Confluence 等。
- Ingestion(解析/接入):LlamaParse、Unstructured、各类 OCR 工具。
- Storage(存储):Qdrant、Weaviate、Milvus、Oracle 等主流向量数据库,完美适配企业级与开源部署。

为什么选择 Knowledge Pipeline
Knowledge Pipeline 将上下文工程真正落地。它将非结构化企业数据转化为高质量上下文,全面驱动检索、推理与业务应用。三大核心优势:
- 打通业务与数据工程:可视化编排与实时调试让业务团队直接参与。他们可直观查看数据处理过程,协助排查检索问题;工程团队则聚焦核心增长任务。
- 降低构建与维护成本:许多 RAG 项目属于一次性开发。Knowledge Pipeline 将处理流程转化为可复用资产。合同审查、客服知识库与技术文档均可沉淀为模板,团队只需复制微调,大幅减少重复开发与长期维护成本。
- 灵活采用最佳供应商方案:无需在“完全自研”或“绑定单一厂商”间做选择。可随时替换 OCR、解析、结构化提取、向量存储与重排序组件,同时保持整体架构稳定。
后续规划
在最新版本中,我们基于队列图执行模型(queued graph execution)重构了 Workflow 引擎。新引擎打破了复杂并行场景的性能瓶颈,支持更灵活的节点连线与控制。流水线支持从任意节点启动、中途暂停与恢复,并为断点续传、人机协同(Human-in-the-loop)及事件触发执行奠定基础。
立即开始编排企业级 Knowledge Pipeline。