摘要:Dify.AI 正式发布 AI Agent 功能。该功能支持接入多种主流 LLM,通过思维链(CoT)推理与工具调用能力,实现复杂问题的逐步解决。平台内置搜索、绘图、数据分析等 11 款实用工具,并提供 API 扩展与自定义开发接口。同时优化了 Studio 界面与变量管理,助力开发者与企业快速构建智能化应用。
Dify.AI 正式发布 AI Agent:基于多种 LLM 打造 GPT 与智能助手
分类:Release
人类擅长解决复杂问题。这一过程需要理解信息、规划步骤、做出决策、调用工具,并根据反馈动态调整下一步行动。如今,LLM 在语言理解与处理方面表现卓越,这让我们对其在现实问题解决中的应用充满期待。此前,OpenAI 推出了 GPTs 与 Assistants API,让我们得以基于其模型体验 AI 助手。这极大地激发了我们的创作灵感。现在,Dify 迈出了更进一步的一步:支持接入市面上几乎所有主流 LLM,并结合丰富的工具集,助你轻松打造智能 AI Agent。
与 OpenAI Assistants API 有何不同?
OpenAI Assistants API 允许开发者基于 OpenAI 模型构建高级 AI 助手。而 Dify 作为主打开放性的 LLM 应用开发平台,全面支持各类 LLM,涵盖开源模型。这意味着你不再局限于 OpenAI 的模型,而是可以根据不同 AI Agent 的需求,拥有更广泛的选择空间。
Dify 的开源特性同样令人兴奋。你可以将其直接部署在企业内部。这为将 AI 能力融入现有业务提供了极大便利,甚至能将企业自有 API 实时转化为可调用的工具。对于高度重视数据隐私的企业而言,这意义重大。更多细节请参阅我们的文章《Dify.AI: Open-source Assistants API based on any LLM》。

什么是 AI Agent?
我们非常期待 AI Agent 能够模拟人类的思考与问题解决过程。通过逐步推理,最终给出解决方案。在 Dify 中,AI Agent 采用“思维链(Chain-of-Thought)”推理机制。这意味着智能体能够循序渐进地拆解问题。更棒的是,你只需通过直观的可视化界面,即可快速创建专属 Agent。
举个例子。假设提问:“特朗普夫人现在多大年纪?”当前,LLM 无法直接从自身数据库中调取实时年龄。但别担心,我们可以借助两个高效工具辅助解决:Wikipedia_search(维基百科搜索)和 current_time(当前时间)。具体推理步骤如下:
- 首先调用
Wikipedia_search,查询梅拉尼娅·特朗普的出生年份。结果为 1970 年 4 月 26 日。 - 接着调用
current_time,获取今日日期。结果为 2024 年 1 月 21 日。 - 最后进行计算,得出梅拉尼娅·特朗普的当前年龄:53 岁。

如何基于多种 LLM 实现 Agent 推理?
要让 AI Agent 足够智能,必须依赖具备强大推理能力的基础模型。这正是 LLM 的用武之地,尤其是支持 CoT(思维链)推理的模型。不同模型厂商提供了不同的推理调用方式,例如 Function Calling(函数调用)和 ReAct。通常,支持 Function Calling 的模型表现更优。
目前,OpenAI、ChatGLM、通义千问、MiniMax 及文心一言等模型均支持该功能。对于尚未支持 Function Calling 的模型系列,Dify 提供了通用的 ReAct 调用方案。

当前 AI Agent 支持哪些工具?
对 AI Agent 而言,配备合适的工具集至关重要。这些工具并非简单的功能点缀,而是为 AI 提供额外的知识与技能,是其实现在线推理的核心支撑。
本次更新,Dify 不仅保留了传统的知识库调用能力,还内置了 11 款实用工具:
- Google Search:AI 的搜索引擎入口。支持全网检索,精准提取信息与网页内容。
- DALL·E:OpenAI 提供的绘图助手。AI 可根据文本描述直接生成图像。
- Vectorizer.AI:图像格式转换工具。快速将 PNG/JPG 图片转为 SVG 矢量图。
- Chart Generator:图表生成器。轻松创建柱状图、折线图或饼图等可视化图表。
- Web Scraper:网页爬虫。自动抓取网站上的文本、图片与链接。
- Wolfram Alpha:计算与数据专家。擅长解决复杂数学题、数据分析及历史资料查询。
- Youtube:视频数据查询。获取 YouTube 视频的相关统计信息。
- Stable Diffusion:创意绘图工具。将文本描述转化为高质量图像。
- Yahoo Finance:财经资讯接口。提供实时金融与股票新闻。
- Wikipedia:百科知识库。快速检索维基百科的摘要与详细信息。
- Current Time:时间查询工具。实时获取当前时间。
在 Agent 模式下,你可以自由为 AI Agent 开启上述工具。LLM 会根据任务需求自主挑选并调用。我们已确保各工具之间无缝协作。所有工具均可共享变量池,轻松获取其他工具的输出结果。例如,使用 DALL·E 生成图片后,视频生成工具可直接调用该图片进行二次创作。
在演示视频中,DALL·E 与 Vectorizer.AI 协同工作。AI Agent 可先为你绘制 Logo,随后自动将其转为矢量格式。具体流程如下:Agent 通过对话向你询问风格偏好、整体氛围及喜好。明确需求后,调用 DALL·E 生成初稿。你可提出修改意见,Agent 会据此微调。最后,将成品交由 Vectorizer.AI 转换为 SVG 格式。随时即可使用你的专属新 Logo。
自定义 AI Agent 工具
在企业场景中,AI Agent 能够安全地获取公司内部数据,或接入第三方工具实时解决问题。为此,Dify 不仅提供了丰富的内置工具,还开放了 API 扩展能力,帮助开发者接入自定义工具。
目前支持 OpenAPI/Swagger 与 OpenAI Plugin 标准。你只需将外部工具的 API 适配至上述标准,即可轻松将其引入 Dify。配置完成后,团队全员即可直接调用。
此外,我们非常欢迎开发者通过编写代码,自主开发实用工具。这将进一步提升 AI Agent 的智能水平。感兴趣的朋友可查阅我们的《贡献指南》。
重要更新说明
为匹配核心功能升级并贯彻 Dify 的设计理念,我们对界面进行了全面优化。请放心,现有应用不受影响:
- 原“Build Apps”模块已更名为“Studio”。原“Chat APP”现统一称为“Assistant”。在此架构下,你可创建“基础助手(Basic Assistant)”或“Agent 助手(Agent Assistant)”,两者均深度调用 LLM 能力。
- 原“Chat App”中的“API Extension”功能已迁移至“Variables(变量)”模块。它将在提示词中作为变量显示。此前已配置的用户,功能将保持原有逻辑正常运行。

- 为便于管理丰富的工具集,“Tools”选项已移至主菜单。在此处你可统一管理自定义工具、权限配置及其他相关任务。
快速上手
是否想过打造专属的 AI Agent?在 Dify 中,你可以直接新建 Assistant 并选择 Agent 模式。也可以将现有的 Chat App 直接在提示词配置页切换为 Agent 助手类型。我们的官方文档将为你提供完善的入门指引,助你开启智能化开发之旅。