未来的Agent趋向

Agent是什么?

下一代的AI应该是通过Agent的形式来表现出来,生产内容和生产力完全是两个不同的内容,对于用户来说,一个能帮忙干活的AI和一个只能生成内容的AI是完全不一样的,下一代Agent应该在生成内容之外帮助用户实现所需的功能并完成特定任务。

  • Agent ≈ LLM的新UI;Agent = 面向真实世界任务的智能体,能主动、规划、执行任务;传统的Chatbot局限于只能进行FAQ式的对话,不能完成复杂任务

  • Chat(LLM的旧入口) –> Agent(未来趋势)

什么是一个好的Agent?

  • 高效规划与执行能力:自主拆解复杂任务,制定清晰步骤并可靠执行的能力
  • 多模态理解与输出:不仅处理文本,更能理解图像、声音,并生成多样的内容格式
  • 工具整合能力强:熟练调用外部工具,如浏览器、文件系统、API,以扩展自身能力边界
  • 强记忆力与上下文控制:具备长短期记忆,准确把握对话历史,保持交互的连贯与 深入。

Agent的五要素结构

  • LLM:推理+上下文,作为智能体的大脑,负责理解、推理和生成内容,是决策的核心
  • Prompt:定义职责,指导行为,精确的指令和角色设定,用于引导模型输出符合预期的结果
  • Tools:操作现实世界的手段,赋予智能体与外部API、数据库、文档、物理世界交互的能力
  • Memory:长期/短期记忆协同,结合短期上下文记忆和长期知识库,实现持续学习和个性化
  • Benchmark:性能标准与评价,一套标准化的测试和评估体系,用于衡量智能体的性能和可靠性

Agent框架设计

分层架构:将复杂的任务处理流程分解为清晰的调度层和执行层

根据任务特效,为每个执行环节选择最优、最擅长的大语言模型

不同的LLM针对不同的任务会有不同的倾向,例如Research Agent可能需要强上下文、倾向于文字处理的模型,对于Code Agent 可能需要逻辑处理能力更强的模型,根据实际需要选择不同的LLM,而不是使用一个模型来完成所有任务。

设计框架

OWL系统架构

Tool与Environment实践

Tool可以分类为ShellFileBrowserAPIMCP