全新推出 Knowledge Pipeline

摘要：本文介绍 Dify 全新推出的 Knowledge Pipeline。该可视化工作流将杂乱的企业管理数据转化为高质量 LLM 上下文，解决传统 RAG 数据源分散、解析丢失与流程不透明等痛点。通过模块化节点、丰富集成与可观测调试，助力企业高效构建可复用、低成本的 RAG 应用。

今天，我们正式推出全新的 Knowledge Pipeline。这是一款可视化工作流，能够将杂乱的企业管理数据转化为高质量的 LLM 上下文。

在大多数企业中，瓶颈往往不在模型本身，而在于非结构化数据的上下文工程。关键信息散落在 PDF、PPT、Excel、图片和 HTML 等文件中。核心挑战在于，如何将分散、异构且持续变化的内部数据，转化为 LLM 可稳定消费的可靠上下文。这绝非简单的数据导入，而是一套需要精心设计、调优与可观测性的系统工程。

传统 RAG 在处理企业数据时，常受限于三大痛点：
- 数据源分散：数据分布在 ERP、Wiki、邮件和网盘中。各系统认证方式与格式各异，逐一对接成本高昂。
- 解析丢失：解析后文档变为纯文本，图表和公式往往丢失。若分块策略过于简单，还会进一步破坏文档逻辑。最终 LLM 只能基于残缺片段作答。
- 流程黑盒：各处理步骤缺乏透明度。一旦出错，难以定位是解析、分块还是嵌入环节的问题，排查与复现极为困难。

Knowledge Pipeline 正是为上下文工程补齐的关键数据基础设施。借助可视化工作流，团队可全程掌控从原始数据源到可信上下文的完整链路。

可视化编排的 Knowledge Pipeline

Knowledge Pipeline 继承了 Dify Workflow 的画布体验，让 RAG 的 ETL 链路完全透明。每个处理步骤都是一个独立节点。从数据源接入、文档解析到分块策略，你都可以为文本、图片、表格和扫描件选择最匹配的插件。依托 Dify Marketplace，团队能够像搭积木一样组装文档处理流水线，并针对特定行业与数据类型定制专属流程。

按需灵活扩展：支持在流水线中嵌入 If-else、Code 和 LLM 等 Workflow 节点。利用模型进行内容增强，使用代码执行规则清洗，真正实现高度灵活的控制。

企业级数据源集成

Knowledge Pipeline 将“数据源”作为全新插件类型引入。每个知识库均可直连多种非结构化数据源，无需编写自定义适配器或认证代码。直接从 Marketplace 按需选取，或通过标准接口快速开发自有系统的连接器。

目前已支持的数据源包括：
- 本地文件：支持 PDF、Word、Excel、PPT、Markdown 等 30 余种格式。
- 云存储：Google Drive、AWS S3、Azure Blob、Box、OneDrive、Dropbox。
- 在线文档：Notion、Confluence、SharePoint、GitLab、GitHub。
- 网页抓取：Firecrawl、Jina、Bright Data、Tavily。

可插拔的数据处理流水线

我们将处理流程拆解为标准节点，确保流水线具备可预测性与可扩展性。你可根据实际场景自由替换插件。

Extract（提取）：支持多源数据接入。后续步骤会自动适配上游输出类型（文件对象或页面内容），涵盖文本与图片。
Transform（转换）：流水线核心，包含四个阶段：
Parse（解析）：按文件类型选择最优解析器，提取文本与结构化元数据。针对扫描件、表格或 PPT 文本框排序，支持多解析器并行运行，避免信息丢失。
Enrich（增强）：利用 LLM 和 Code 节点完成实体抽取、摘要生成、分类、脱敏等任务。
Chunk（分块）：提供三种策略：General（通用）、Parent-Child（父子级）和 Q&A（问答对）。分别适用于常规文档、长篇技术文件及结构化表格查询。
Embed（向量化）：支持按成本、语言、维度等指标，从不同提供商选择嵌入模型。
Load（加载）：将向量与元数据写入知识库并构建高效索引。支持高质量向量索引与低成本倒排索引。可配置元数据标签，实现精准过滤与权限控制。

处理完成后，检索阶段支持 vector（向量）、full text（全文）或 hybrid（混合）策略。结合元数据过滤与重排序（Reranking），可返回带原始出处的精准结果。最终由 LLM 整合图文内容，生成准确且体验更佳的答案。

可观测的调试体验

传统流水线如同黑盒。Knowledge Pipeline 支持逐步执行 Test Run（测试运行），并实时检查每个节点的输入与输出。Variable Inspect（变量检查）面板会动态展示中间变量与上下文，助你快速定位解析错误、分块异常或元数据缺失等问题。

验证无误后，一键发布流水线，即可进入标准化处理流程。详细操作指南请查阅官方文档。

开箱即用的场景模板

内置 7 款模板，助你快速上手：
- 通用文档处理 - General Mode (ECO)：采用经济型索引，按段落切分。适合大批量文档处理。
- 长文档处理 - Parent-Child (HQ)：层级化父子分块，兼顾局部精度与全局上下文。适合长篇技术文档与报告。
- 表格数据提取 - Simple Q&A：提取表格指定列，构建结构化问答对，支持自然语言查询。
- 复杂 PDF 解析 - Complex PDF with Images & Tables：精准提取 PDF 中的图片与表格，赋能下游多模态检索。
- 多模态增强 - Contextual Enrichment Using LLM：调用 LLM 描述图片与表格内容，提升检索效果。
- 文档格式转换 - Convert to Markdown：将 Office 格式转为 Markdown，兼顾处理速度与兼容性。
- 智能问答生成 - LLM Generated Q&A：从长文档中自动提炼核心问答对，构建精准知识节点。

RAG 插件生态

Dify 提供由官方、合作伙伴与社区共同构建的开放插件生态。基于插件化架构，企业可按需灵活选型：
- Connector（连接器）：Google Drive、Notion、Confluence 等。
- Ingestion（解析/接入）：LlamaParse、Unstructured、各类 OCR 工具。
- Storage（存储）：Qdrant、Weaviate、Milvus、Oracle 等主流向量数据库，完美适配企业级与开源部署。

为什么选择 Knowledge Pipeline

Knowledge Pipeline 将上下文工程真正落地。它将非结构化企业数据转化为高质量上下文，全面驱动检索、推理与业务应用。三大核心优势：

打通业务与数据工程：可视化编排与实时调试让业务团队直接参与。他们可直观查看数据处理过程，协助排查检索问题；工程团队则聚焦核心增长任务。
降低构建与维护成本：许多 RAG 项目属于一次性开发。Knowledge Pipeline 将处理流程转化为可复用资产。合同审查、客服知识库与技术文档均可沉淀为模板，团队只需复制微调，大幅减少重复开发与长期维护成本。
灵活采用最佳供应商方案：无需在“完全自研”或“绑定单一厂商”间做选择。可随时替换 OCR、解析、结构化提取、向量存储与重排序组件，同时保持整体架构稳定。

后续规划

在最新版本中，我们基于队列图执行模型（queued graph execution）重构了 Workflow 引擎。新引擎打破了复杂并行场景的性能瓶颈，支持更灵活的节点连线与控制。流水线支持从任意节点启动、中途暂停与恢复，并为断点续传、人机协同（Human-in-the-loop）及事件触发执行奠定基础。

立即开始编排企业级 Knowledge Pipeline。