AI Agent基础概念-liker的博客

前言预览

AI Agent 是一种具备自主推理、调用工具和执行任务能力的智能系统，区别于只能聊天的大语言模型，它“能思考也能动手”。

Agent 的三大核心组件是：模型（大脑）、工具（手脚）、编排层（调度器），共同支持任务执行闭环。

推理框架（如 ReAct、CoT、ToT）是 Agent 的“思维模式”，决定其如何思考、行动、调整直到完成任务。

工具是 Agent 通往现实世界的桥梁，主要分为三类：Extension（后端闭环调用）、Function（前端控制函数）、Data Storage（知识记忆与检索）。

向量嵌入与 RAG（检索增强生成）让 Agent 拥有动态知识库，实现“查资料再作答”的开卷能力。

提示词工程（Prompt Engineering）是激发 Agent 智能行为的编程语言，通过结构化提示精准引导模型行为。

AI Agent 将语言模型升级为可感知、可决策、可执行的“数字员工”，是迈向通用人工智能（AGI）演进的关键形态。

一、什么是 Agent

1.1 定义与区别

AI Agent 是一种利用人工智能技术实现自主特定任务的应用程序，也叫做智能体。他具有一定程度自主性去决策、学习和适应环境的能力。它不仅仅是一个语言模型，而是结合了推理能力、工具使用、状态记忆的应用体。

与普通 LLM 的区别：

能力	普通大模型（LLM）	AI Agent
推理能力	有	更系统（ReAct等框架）
使用工具	无	✅ 可以调用工具
与环境交互	❌	✅ 可执行真实任务，感知外界信息
状态管理	stateless	有记忆（memory）与状态跟踪

类比：模型像是大脑，Agent 是“有手有脚能看能听的人”。

1.2 Agent 三大核心组件

组件	功能	举例
模型（Model）	决策、推理、生成语言内容	GPT-4、Gemini-1.5
工具（Tool）	实现与外部世界交互，获取/处理信息	Search API、数据库、执行器等
编排层（Orchestration）	决定如何思考、是否用工具、如何反复尝试直到完成任务，目前多用相关框架实现，负责维护记忆、状态、推理和规划	ReAct、LangGraph、CoT 等

二、推理框架

在 AI Agent 系统中，“推理框架（Reasoning Framework）” 是一个非常核心的概念，它决定了智能体（Agent）在面对任务时，如何思考、决策、规划、调用工具并最终完成目标。

推理框架是 Agent 执行任务时的“思维流程设计”，它定义了：
Agent 如何理解任务
如何拆解为子任务
是否调用工具、如何调用
如何观察反馈并继续调整
如何判断任务完成

👉 简单说：它是 Agent 的“思维逻辑模版”。

以下是常见的推理框架:

2.1 ReAct（Reason + Act）

最基础的 Agent 推理架构。
过程：
1. 🤔 Thought（思考）——是否需要工具
2. 🛠️ Action（调用工具）——如 Search
3. 👀 Observation（观察）——获取结果
4. 🔁 循环直到得出最终答案
代表性框架：LangChain ReAct Agent、OpenAI Plugin Agent。

2.2 CoT（Chain of Thought）

提供显式的“分步骤”提示，引导模型思维展开。
适合数学、逻辑、多步骤推理。

2.3 ToT（Tree of Thought）

多路径、多分支探索（像搜索树）
可并行探索多个思路，再投票决定最佳路径。
适合复杂策略任务，如规划、博弈、代码自动修复。

三、工具类型对比

3.1 Extension（后端闭环插件）

3.1.1 概念

含义：在 Agent 后端集成的标准化 API 插件，通过示例提示教会模型调用；
执行位置：模型内部／Agent 服务器端；
特点：
- Agent 可直接调用 API，无需额外编码；
- 支持动态选择最适用的 Extension；
- 实时访问最新数据；
使用示例：
- 集成 Google Flights、Google Places 等；
- 模型根据用户意图自动选用 Extension，然后 Agent 执行；
优缺点：
- 优点：闭环执行、模型智能控制；
- 缺点：需要在服务端信任模型，权限管理更复杂；

3.1.2 需求：预定航班的 Agent

假设你想创建一个帮用户预订航班的 Agent，并使用 Google Flights API 来搜索航班信息，但不确定如何让你的 Agent 调用这个 API。

3.1.3 实现方式一：传统方式，写代码解析参数

传统解决方式是写代码，从用户输入中解析城市等相关信息，然后调用 API。例如，

用户输入 “I want to book a flight from Austin to Zurich”（“我想从奥斯汀飞往苏黎世”）；我们的代码需要从中提取“Austin”和“Zurich”作为相关信息，然后才能进行 API 调用。
但如果用户输入“I want to book a flight to Zurich”，我们就无法获得出发城市信息，进而无法成功调用 API，所以需要写很多代码来处理边界 case。

显然，这种方法维护性和扩展性都很差。有没有更好的解决方式呢？这就轮到 exntension 出场了。

3.1.4 实现方式二：使用 Extension

如上图所示，Extension 通过以下方式将 Agent 与 API 串起来：

提供示例信息教 Agent 如何使用 API。
告诉 Agent 调用 API 所需的具体参数。

Extension 可以独立于 Agent 开发，但应作为 Agent 配置的一部分。 Agent 在运行时，根据提供的示例和模型来决定使用哪个 extension 来处理用户的查询，这突出了 extension 的一个核心优势：built-in example types，允许 Agent 动态选择最适合所执行任务的 extension，如下图所示，

3.2 Function（前端控制调用）

3.2.1 概念

含义：模型生成函数调用意图（JSON），实际执行在前端或client；
注意：agent的模型根据输入选择合适的函数，但是不执行，交给客户端执行；
执行位置：由客户端系统（浏览器、后端服务）执行；
特点：
- 对数据流和系统执行进行细粒度的控制，
- 利用 Agent 和模型生成结构化的信息，方便作为下一步的输入。
适合场景：支付系统、医疗流程、审批流程。

3.2.2 案例：推荐去滑雪的城市

具体步骤：

🧩 Step 1：用户输入

🧩 Step 2：Agent 构造 prompt + 示例发给模型

🧩 Step 3：模型生成 Function 调用意图（JSON），注意这里没有执行函数，只是建议使用这个函数

🧩 Step 4：前端拦截 JSON 并发起实际 API 调用

🧩 Step 5：API 执行并返回结果

🧩 Step 6：最终返回用户可读结果

3.3 Data Storage（向量数据库 + RAG）

3.3.1 概念

含义：提供动态更新的信息，允许开发人员以原始格式向 Agent 提供增量数据，将传入的文档将被转换为一组向量数据库嵌入（embedding），Agent 可以使用这些 embedding 来提取信息。
向量数据库 ：Agent 使用的数据库一般是向量数据库，它们以向量 embedding 的形式存储数据
特点：
- 使用 embedding 做语义索引；
- 可补充 LLM 训练盲区、最新内容；
使用流程：
1. （后端）文档→嵌入→存入 Vector DB，数据库实时更新；
2. 用户问题→嵌入→向量检索；
3. 最相关文档（top‑K）作为上下文输入模型生成答案；

用户 query 送到 embedding 模型，生成 query 的 embedding 表示。
将 query embedding 与向量数据库的内容进行匹配，本质上就是在计算相似度。
将相似度最高的内容以文本格式发送回 Agent。
Agent 决定响应或行动。
最终响应发送给用户。

优缺点：
- 有助于减少“幻觉”，内容精确；
- 流程复杂，需管理 DB + embedding 模型；

3.3.2 实例：询问最新育儿政策

四、相关知识点概念

4.1 向量数据库嵌入（embedding）是什么

嵌入（Embedding）是把文字、图片等信息“翻译”成模型能理解的“向量”（一组数字），用于比较语义相似性。

4.2 RAG是什么

RAG（检索增强生成）全称是：Retrieval-Augmented Generation。

它是一种将 知识检索（Retrieval） 与大语言模型（LLM）的生成能力（Generation） 相结合的方法。

类比：

大语言模型（比如 GPT、Gemini）：
是「闭卷考试」：靠自己训练时学到的知识回答；
但它可能不知道你的公司政策/最新法律/私有数据！
RAG 让它「开卷考试」，先**查资料(知识检索，通过比较语义相似性)**再作答！

4.3 提示词工程（Prompt Engineering）是什么？

Prompt Engineering 就是**设计、构造能有效驱动大模型输出预期内容的提示语（Prompt）**的过程。

你可以理解它为：

“和大模型打交道的艺术与科学”——我们通过设计好的指令/提示（Prompt），引导模型朝着我们期望的方向输出内容。

大模型本身并不能读心，它只根据输入的 Prompt 推测该如何回答。因此：

没有 Prompt Engineering	有 Prompt Engineering
“翻译这句话” → 输出不确定	“请翻译成简体中文，语气正式，保留专有名词” → 明确控制输出
“请总结这段话” → 风格随意	“请用三点总结，保持简洁，每点不超过20字” → 有结构

参考链接

[译] AI Agent（智能体）技术白皮书（Google，2024）

目录CONTENT

AI Agent基础概念