Dify.AI x Firecrawl:打造顶级的网页数据知识库解决方案
摘要: Dify v0.6.11 版本重磅推出与 Firecrawl 的深度集成,支持通过“从网站同步”功能将网页内容转化为高质量的 Markdown 或结构化数据,直接用于构建 RAG 应用。此外,该版本还优化了工作流协作体验(新增注释功能),并更新了模型提供商、向量数据库及依赖管理工具,进一步提升开发效率与团队协作能力。
大家好,我是 Dify 的 Leilei!在最新的 v0.6.11 版本中,我带来了一些令人兴奋的好消息。我们的团队与 Firecrawl 合作,为知识库新增了一种强大的网页数据源,且效果非常出色。今天,我将为大家详细介绍这一功能,以及我们完成的其他几项精彩集成。
连接网页数据与你 RAG 应用的桥梁
Firecrawl 能够抓取任何网站,并将其转换为大语言模型(LLM)可直接使用的干净 Markdown 或结构化数据。这种高质量的数据非常适合用于在 Dify 上构建你的 RAG(检索增强生成)应用。
快速上手
新的“从网站同步”选项位于知识库仪表板中,使用非常便捷。只需获取一个 Firecrawl API Key 并配置设置即可开始使用。
- 免费额度: 你将获得 500 个免费积分(相当于抓取 500 页),这对于任何希望探索其云服务的人来说都绰绰有余。
- 开源版本 (OSS): Firecrawl 还提供开源软件版,允许你搭建自己的服务器进行无限量的抓取和爬取。该版本同样能与 Dify 高效配合使用。不过在本介绍中,我将主要聚焦于云端版本。

轻松配置
即使没有站点地图(sitemap),Firecrawl 也能抓取所有可访问的子页面,并返回干净、结构化的 Markdown。在 Dify中,我们提供了一些选项,让你可以根据具体需求进行灵活设置:
“爬取子页面”选项允许你:
1. 限制总页数: 设定要抓取的子网页总数上限。
2. 设置最大深度: 相对于输入的 URL 定义抓取深度(深度为 0 仅抓取输入的主页,深度为 1 则同时抓取主页及其直接子页面)。
这两个选项足以覆盖大多数基础需求。此外,我们还提供了“排除路径”和“包含路径”功能,以便更精细地控制网页抓取范围。

使用 Dify 进行数据嵌入
Firecrawl 能够高效地并行抓取网页,快速交付结果。一旦爬取完成,你可以直接在 Dify 界面上选择所需的网页数据。选中的网页数据随后即可进入文本预处理和清洗步骤。完成后,这些数据将被嵌入并存储在 Dify 的向量数据库中,成为新的知识库内容。


随时准备构建 RAG 应用
现在,你可以在 Dify 上创建一个以网页数据作为上下文知识的 RAG 应用了!
这些最新的数据在商业场景中能发挥更大价值,例如:
* 监控市场趋势
* 实时掌握新闻动态
* 追踪竞争对手信息
提升工作流协作效率
除了集成网页数据源外,Dify v0.6.11 还对工作流的构建体验进行了优化,以促进团队协作。
你现在可以在工作流编排页面的任何位置添加注释。这使得分享想法和团队协作者更加轻松便捷。当你以 DSL 文件形式共享工作流时,这些注释将被保留下来。这意味着你可以有效地与团队成员及社区交流你的创意构思。

更多亮点功能
除了上述两大主要更新外,这里还有一些你可能感兴趣的额外改进:
- 模型提供商扩展: 新增了三个模型提供商,并更新了四个提供商的模型列表。其中包括了强大的
Jina-CLIP-v1嵌入模型。 - 向量数据库集成: 在 RAG 引擎中集成了来自 TiDB、Chroma 和腾讯云的新向量数据库选项。
- 依赖管理升级: 从 pip 迁移至 poetry,实现了更优的包管理体验。现在支持更快的并行依赖下载以及卓越的冲突解决能力。
- 新增“编辑器”角色: Dify 工作区中新增了‘Editor’用户角色。编辑者现在可以在工作区内添加和编辑应用。
加入社区
我们非常期待听到你对这些更新的想法!欢迎通过 Twitter 上的 @dify_ai 或 @DifyJapan 与我们分享你的观点。我们始终乐于倾听用户的反馈,并不断改进我们的产品。此外,我们的 Discord 频道也随时向你开放,你可以在那里与社区互动、分享创意并获取最新资讯。
如需查看完整的变更列表,请参阅 GitHub 上的发布日志 GitHub。