Dify.AI x Firecrawl：打造顶级的网页数据知识库解决方案

摘要： Dify v0.6.11 版本重磅推出与 Firecrawl 的深度集成，支持通过“从网站同步”功能将网页内容转化为高质量的 Markdown 或结构化数据，直接用于构建 RAG 应用。此外，该版本还优化了工作流协作体验（新增注释功能），并更新了模型提供商、向量数据库及依赖管理工具，进一步提升开发效率与团队协作能力。

大家好，我是 Dify 的 Leilei！在最新的 v0.6.11 版本中，我带来了一些令人兴奋的好消息。我们的团队与 Firecrawl 合作，为知识库新增了一种强大的网页数据源，且效果非常出色。今天，我将为大家详细介绍这一功能，以及我们完成的其他几项精彩集成。

连接网页数据与你 RAG 应用的桥梁

Firecrawl 能够抓取任何网站，并将其转换为大语言模型（LLM）可直接使用的干净 Markdown 或结构化数据。这种高质量的数据非常适合用于在 Dify 上构建你的 RAG（检索增强生成）应用。

快速上手

新的“从网站同步”选项位于知识库仪表板中，使用非常便捷。只需获取一个 Firecrawl API Key 并配置设置即可开始使用。

免费额度： 你将获得 500 个免费积分（相当于抓取 500 页），这对于任何希望探索其云服务的人来说都绰绰有余。
开源版本 (OSS)： Firecrawl 还提供开源软件版，允许你搭建自己的服务器进行无限量的抓取和爬取。该版本同样能与 Dify 高效配合使用。不过在本介绍中，我将主要聚焦于云端版本。

Firecrawl Integration Dashboard

轻松配置

即使没有站点地图（sitemap），Firecrawl 也能抓取所有可访问的子页面，并返回干净、结构化的 Markdown。在 Dify中，我们提供了一些选项，让你可以根据具体需求进行灵活设置：

“爬取子页面”选项允许你：
1. 限制总页数： 设定要抓取的子网页总数上限。
2. 设置最大深度： 相对于输入的 URL 定义抓取深度（深度为 0 仅抓取输入的主页，深度为 1 则同时抓取主页及其直接子页面）。

这两个选项足以覆盖大多数基础需求。此外，我们还提供了“排除路径”和“包含路径”功能，以便更精细地控制网页抓取范围。

Crawl Settings

使用 Dify 进行数据嵌入

Firecrawl 能够高效地并行抓取网页，快速交付结果。一旦爬取完成，你可以直接在 Dify 界面上选择所需的网页数据。选中的网页数据随后即可进入文本预处理和清洗步骤。完成后，这些数据将被嵌入并存储在 Dify 的向量数据库中，成为新的知识库内容。

Data Embedding Step 1
Data Embedding Step 2

随时准备构建 RAG 应用

现在，你可以在 Dify 上创建一个以网页数据作为上下文知识的 RAG 应用了！

这些最新的数据在商业场景中能发挥更大价值，例如：
* 监控市场趋势
* 实时掌握新闻动态
* 追踪竞争对手信息

提升工作流协作效率

除了集成网页数据源外，Dify v0.6.11 还对工作流的构建体验进行了优化，以促进团队协作。

你现在可以在工作流编排页面的任何位置添加注释。这使得分享想法和团队协作者更加轻松便捷。当你以 DSL 文件形式共享工作流时，这些注释将被保留下来。这意味着你可以有效地与团队成员及社区交流你的创意构思。

Workflow Collaboration

加入社区

我们非常期待听到你对这些更新的想法！欢迎通过 Twitter 上的 @dify_ai 或 @DifyJapan 与我们分享你的观点。我们始终乐于倾听用户的反馈，并不断改进我们的产品。此外，我们的 Discord 频道也随时向你开放，你可以在那里与社区互动、分享创意并获取最新资讯。

如需查看完整的变更列表，请参阅 GitHub 上的发布日志 GitHub。

【Release】Dify.AI × Firecrawl：打造顶级网络数据知识库的解决方案