2025的Agent共识

发表于2025-07-11|更新于2025-07-11

|字数总计:643

未来的Agent趋向

Agent是什么？

下一代的AI应该是通过Agent的形式来表现出来，生产内容和生产力完全是两个不同的内容，对于用户来说，一个能帮忙干活的AI和一个只能生成内容的AI是完全不一样的，下一代Agent应该在生成内容之外帮助用户实现所需的功能并完成特定任务。

Agent ≈ LLM的新UI；Agent = 面向真实世界任务的智能体，能主动、规划、执行任务；传统的Chatbot局限于只能进行FAQ式的对话，不能完成复杂任务
Chat（LLM的旧入口） –> Agent（未来趋势）

什么是一个好的Agent？

高效规划与执行能力：自主拆解复杂任务，制定清晰步骤并可靠执行的能力
多模态理解与输出：不仅处理文本，更能理解图像、声音，并生成多样的内容格式
工具整合能力强：熟练调用外部工具，如浏览器、文件系统、API，以扩展自身能力边界
强记忆力与上下文控制：具备长短期记忆，准确把握对话历史，保持交互的连贯与深入。

Agent的五要素结构

LLM:推理+上下文，作为智能体的大脑，负责理解、推理和生成内容，是决策的核心
Prompt：定义职责，指导行为，精确的指令和角色设定，用于引导模型输出符合预期的结果
Tools：操作现实世界的手段，赋予智能体与外部API、数据库、文档、物理世界交互的能力
Memory：长期/短期记忆协同，结合短期上下文记忆和长期知识库，实现持续学习和个性化
Benchmark：性能标准与评价，一套标准化的测试和评估体系，用于衡量智能体的性能和可靠性

Agent框架设计

分层架构：将复杂的任务处理流程分解为清晰的调度层和执行层

根据任务特效，为每个执行环节选择最优、最擅长的大语言模型

不同的LLM针对不同的任务会有不同的倾向，例如Research Agent可能需要强上下文、倾向于文字处理的模型，对于Code Agent 可能需要逻辑处理能力更强的模型，根据实际需要选择不同的LLM，而不是使用一个模型来完成所有任务。

设计框架

OWL系统架构

Tool与Environment实践

Tool可以分类为Shell、File、Browser、API、MCP

2025的Agent共识

https://www.liuhengfeng.xyz/posts/796b2fbf.html

作者

LHF

发布于

2025-07-11

更新于

2025-07-11

许可协议

CC BY-NC-SA 4.0

相关推荐

AutoDL服务器常用命令记录

数据库加载中