Release

【Release】Dify.AI × Firecrawl:打造顶级网络数据知识库的解决方案

Dify.AI x Firecrawl:打造顶级的网页数据知识库解决方案

摘要: Dify v0.6.11 版本重磅推出与 Firecrawl 的深度集成,支持通过“从网站同步”功能将网页内容转化为高质量的 Markdown 或结构化数据,直接用于构建 RAG 应用。此外,该版本还优化了工作流协作体验(新增注释功能),并更新了模型提供商、向量数据库及依赖管理工具,进一步提升开发效率与团队协作能力。


大家好,我是 Dify 的 Leilei!在最新的 v0.6.11 版本中,我带来了一些令人兴奋的好消息。我们的团队与 Firecrawl 合作,为知识库新增了一种强大的网页数据源,且效果非常出色。今天,我将为大家详细介绍这一功能,以及我们完成的其他几项精彩集成。

连接网页数据与你 RAG 应用的桥梁

Firecrawl 能够抓取任何网站,并将其转换为大语言模型(LLM)可直接使用的干净 Markdown 或结构化数据。这种高质量的数据非常适合用于在 Dify 上构建你的 RAG(检索增强生成)应用。

快速上手

新的“从网站同步”选项位于知识库仪表板中,使用非常便捷。只需获取一个 Firecrawl API Key 并配置设置即可开始使用。

  • 免费额度: 你将获得 500 个免费积分(相当于抓取 500 页),这对于任何希望探索其云服务的人来说都绰绰有余。
  • 开源版本 (OSS): Firecrawl 还提供开源软件版,允许你搭建自己的服务器进行无限量的抓取和爬取。该版本同样能与 Dify 高效配合使用。不过在本介绍中,我将主要聚焦于云端版本。

Firecrawl Integration Dashboard

轻松配置

即使没有站点地图(sitemap),Firecrawl 也能抓取所有可访问的子页面,并返回干净、结构化的 Markdown。在 Dify中,我们提供了一些选项,让你可以根据具体需求进行灵活设置:

“爬取子页面”选项允许你:
1. 限制总页数: 设定要抓取的子网页总数上限。
2. 设置最大深度: 相对于输入的 URL 定义抓取深度(深度为 0 仅抓取输入的主页,深度为 1 则同时抓取主页及其直接子页面)。

这两个选项足以覆盖大多数基础需求。此外,我们还提供了“排除路径”和“包含路径”功能,以便更精细地控制网页抓取范围。

Crawl Settings

使用 Dify 进行数据嵌入

Firecrawl 能够高效地并行抓取网页,快速交付结果。一旦爬取完成,你可以直接在 Dify 界面上选择所需的网页数据。选中的网页数据随后即可进入文本预处理和清洗步骤。完成后,这些数据将被嵌入并存储在 Dify 的向量数据库中,成为新的知识库内容。

Data Embedding Step 1
Data Embedding Step 2

随时准备构建 RAG 应用

现在,你可以在 Dify 上创建一个以网页数据作为上下文知识的 RAG 应用了!

这些最新的数据在商业场景中能发挥更大价值,例如:
* 监控市场趋势
* 实时掌握新闻动态
* 追踪竞争对手信息

提升工作流协作效率

除了集成网页数据源外,Dify v0.6.11 还对工作流的构建体验进行了优化,以促进团队协作。

你现在可以在工作流编排页面的任何位置添加注释。这使得分享想法和团队协作者更加轻松便捷。当你以 DSL 文件形式共享工作流时,这些注释将被保留下来。这意味着你可以有效地与团队成员及社区交流你的创意构思。

Workflow Collaboration

更多亮点功能

除了上述两大主要更新外,这里还有一些你可能感兴趣的额外改进:

  • 模型提供商扩展: 新增了三个模型提供商,并更新了四个提供商的模型列表。其中包括了强大的 Jina-CLIP-v1 嵌入模型。
  • 向量数据库集成: 在 RAG 引擎中集成了来自 TiDB、Chroma 和腾讯云的新向量数据库选项。
  • 依赖管理升级: 从 pip 迁移至 poetry,实现了更优的包管理体验。现在支持更快的并行依赖下载以及卓越的冲突解决能力。
  • 新增“编辑器”角色: Dify 工作区中新增了‘Editor’用户角色。编辑者现在可以在工作区内添加和编辑应用。

加入社区

我们非常期待听到你对这些更新的想法!欢迎通过 Twitter 上的 @dify_ai@DifyJapan 与我们分享你的观点。我们始终乐于倾听用户的反馈,并不断改进我们的产品。此外,我们的 Discord 频道也随时向你开放,你可以在那里与社区互动、分享创意并获取最新资讯。

如需查看完整的变更列表,请参阅 GitHub 上的发布日志 GitHub

文章来源: https://dify.ai/blog/dify-ai-blog-integrated-with-firecrawl
← 返回文章列表