前言预览
AI Agent 是一种具备自主推理、调用工具和执行任务能力的智能系统,区别于只能聊天的大语言模型,它“能思考也能动手”。
Agent 的三大核心组件是:模型(大脑)、工具(手脚)、编排层(调度器),共同支持任务执行闭环。
推理框架(如 ReAct、CoT、ToT)是 Agent 的“思维模式”,决定其如何思考、行动、调整直到完成任务。
工具是 Agent 通往现实世界的桥梁,主要分为三类:Extension(后端闭环调用)、Function(前端控制函数)、Data Storage(知识记忆与检索)。
向量嵌入与 RAG(检索增强生成)让 Agent 拥有动态知识库,实现“查资料再作答”的开卷能力。
提示词工程(Prompt Engineering)是激发 Agent 智能行为的编程语言,通过结构化提示精准引导模型行为。
AI Agent 将语言模型升级为可感知、可决策、可执行的“数字员工”,是迈向通用人工智能(AGI)演进的关键形态。
一、什么是 Agent
1.1 定义与区别
AI Agent 是一种利用人工智能技术实现自主特定任务的应用程序,也叫做智能体。他具有一定程度自主性去决策、学习和适应环境的能力。它不仅仅是一个语言模型,而是结合了推理能力、工具使用、状态记忆的应用体。
与普通 LLM 的区别:
类比:模型像是大脑,Agent 是“有手有脚能看能听的人”。
1.2 Agent 三大核心组件

二、推理框架
在 AI Agent 系统中,“推理框架(Reasoning Framework)” 是一个非常核心的概念,它决定了智能体(Agent)在面对任务时,如何思考、决策、规划、调用工具并最终完成目标。
推理框架是 Agent 执行任务时的“思维流程设计”,它定义了:
Agent 如何理解任务
如何拆解为子任务
是否调用工具、如何调用
如何观察反馈并继续调整
如何判断任务完成
👉 简单说:它是 Agent 的“思维逻辑模版”。
以下是常见的推理框架:
2.1 ReAct(Reason + Act)
最基础的 Agent 推理架构。
过程:
🤔 Thought(思考)——是否需要工具
🛠️ Action(调用工具)——如 Search
👀 Observation(观察)——获取结果
🔁 循环直到得出最终答案
代表性框架:LangChain ReAct Agent、OpenAI Plugin Agent。
2.2 CoT(Chain of Thought)
提供显式的“分步骤”提示,引导模型思维展开。
适合数学、逻辑、多步骤推理。
2.3 ToT(Tree of Thought)
多路径、多分支探索(像搜索树)
可并行探索多个思路,再投票决定最佳路径。
适合复杂策略任务,如规划、博弈、代码自动修复。
三、工具类型对比
3.1 Extension(后端闭环插件)
3.1.1 概念
含义:在 Agent 后端集成的标准化 API 插件,通过示例提示教会模型调用;
执行位置:模型内部/Agent 服务器端;
特点:
Agent 可直接调用 API,无需额外编码;
支持动态选择最适用的 Extension;
实时访问最新数据;
使用示例:
集成 Google Flights、Google Places 等;
模型根据用户意图自动选用 Extension,然后 Agent 执行;
优缺点:
优点:闭环执行、模型智能控制;
缺点:需要在服务端信任模型,权限管理更复杂;
3.1.2 需求:预定航班的 Agent
假设你想创建一个帮用户预订航班的 Agent,并使用 Google Flights API 来搜索航班信息, 但不确定如何让你的 Agent 调用这个 API。

3.1.3 实现方式一:传统方式,写代码解析参数
传统解决方式是写代码,从用户输入中解析城市等相关信息,然后调用 API。 例如,
用户输入 “I want to book a flight from Austin to Zurich”(“我想从奥斯汀飞往苏黎世”); 我们的代码需要从中提取“Austin”和“Zurich”作为相关信息,然后才能进行 API 调用。
但如果用户输入“I want to book a flight to Zurich”,我们就无法获得出发城市信息,进而无法成功调用 API,所以需要写很多代码来处理边界 case。
显然,这种方法维护性和扩展性都很差。有没有更好的解决方式呢? 这就轮到 exntension 出场了。
3.1.4 实现方式二:使用 Extension

如上图所示,Extension 通过以下方式将 Agent 与 API 串起来:
提供示例信息教 Agent 如何使用 API。
告诉 Agent 调用 API 所需的具体参数。
Extension 可以独立于 Agent 开发,但应作为 Agent 配置的一部分。 Agent 在运行时,根据提供的示例和模型来决定使用哪个 extension 来处理用户的查询, 这突出了 extension 的一个核心优势:built-in example types, 允许 Agent 动态选择最适合所执行任务的 extension,如下图所示,

3.2 Function(前端控制调用)
3.2.1 概念
含义:模型生成函数调用意图(JSON),实际执行在前端或client;
注意:agent的模型根据输入选择合适的函数,但是不执行,交给客户端执行;
执行位置:由客户端系统(浏览器、后端服务)执行;
特点:
对数据流和系统执行进行细粒度的控制,
利用 Agent 和模型生成结构化的信息,方便作为下一步的输入。
适合场景:支付系统、医疗流程、审批流程。

3.2.2 案例:推荐去滑雪的城市

具体步骤:
🧩 Step 1:用户输入
🧩 Step 2:Agent 构造 prompt + 示例发给模型
🧩 Step 3:模型生成 Function 调用意图(JSON),注意这里没有执行函数,只是建议使用这个函数
🧩 Step 4:前端拦截 JSON 并发起实际 API 调用
🧩 Step 5:API 执行并返回结果
🧩 Step 6:最终返回用户可读结果
3.3 Data Storage(向量数据库 + RAG)
3.3.1 概念
含义:提供动态更新的信息,允许开发人员以原始格式向 Agent 提供增量数据,将传入的文档将被转换为一组向量数据库嵌入(
embedding),Agent 可以使用这些 embedding 来提取信息。向量数据库 :Agent 使用的数据库一般是向量数据库,它们以向量 embedding 的形式存储数据
特点:
使用 embedding 做语义索引;
可补充 LLM 训练盲区、最新内容;
使用流程:
(后端)文档→嵌入→存入 Vector DB,数据库实时更新;
用户问题→嵌入→向量检索;
最相关文档(top‑K)作为上下文输入模型生成答案;

用户 query 送到 embedding 模型,生成 query 的 embedding 表示。
将 query embedding 与向量数据库的内容进行匹配,本质上就是在计算相似度。
将相似度最高的内容以文本格式发送回 Agent。
Agent 决定响应或行动。
最终响应发送给用户。
优缺点:
有助于减少“幻觉”,内容精确;
流程复杂,需管理 DB + embedding 模型;
3.3.2 实例:询问最新育儿政策


四、相关知识点概念
4.1 向量数据库嵌入(embedding)是什么
嵌入(Embedding)是把文字、图片等信息“翻译”成模型能理解的“向量”(一组数字),用于比较语义相似性。
4.2 RAG是什么
RAG(检索增强生成) 全称是:Retrieval-Augmented Generation。
它是一种将 知识检索(Retrieval) 与 大语言模型(LLM)的生成能力(Generation) 相结合的方法。
类比:
大语言模型(比如 GPT、Gemini):
是「闭卷考试」:靠自己训练时学到的知识回答;
但它可能不知道你的公司政策/最新法律/私有数据!
RAG 让它「开卷考试」,先**查资料(知识检索,通过比较语义相似性)**再作答!
4.3 提示词工程(Prompt Engineering)是什么?
Prompt Engineering 就是**设计、构造能有效驱动大模型输出预期内容的提示语(Prompt)**的过程。
你可以理解它为:
“和大模型打交道的艺术与科学”——我们通过设计好的指令/提示(Prompt),引导模型朝着我们期望的方向输出内容。
大模型本身并不能读心,它只根据输入的 Prompt 推测该如何回答。因此:
评论区