侧边栏壁纸
博主头像
liker的博客

去码头整点薯条

  • 累计撰写 10 篇文章
  • 累计创建 9 个标签
  • 累计收到 8 条评论

目 录CONTENT

文章目录

AI Agent基础概念

liker
2025-06-30 / 0 评论 / 0 点赞 / 34 阅读 / 0 字

前言预览

AI Agent 是一种具备自主推理、调用工具和执行任务能力的智能系统,区别于只能聊天的大语言模型,它“能思考也能动手”。

Agent 的三大核心组件是:模型(大脑)、工具(手脚)、编排层(调度器),共同支持任务执行闭环。

推理框架(如 ReAct、CoT、ToT)是 Agent 的“思维模式”,决定其如何思考、行动、调整直到完成任务。

工具是 Agent 通往现实世界的桥梁,主要分为三类:Extension(后端闭环调用)、Function(前端控制函数)、Data Storage(知识记忆与检索)。

向量嵌入与 RAG(检索增强生成)让 Agent 拥有动态知识库,实现“查资料再作答”的开卷能力。

提示词工程(Prompt Engineering)是激发 Agent 智能行为的编程语言,通过结构化提示精准引导模型行为。

AI Agent 将语言模型升级为可感知、可决策、可执行的“数字员工”,是迈向通用人工智能(AGI)演进的关键形态。


一、什么是 Agent

1.1 定义与区别

  • AI Agent 是一种利用人工智能技术实现自主特定任务的应用程序,也叫做智能体。他具有一定程度自主性去决策、学习和适应环境的能力。它不仅仅是一个语言模型,而是结合了推理能力、工具使用、状态记忆的应用体。

  • 与普通 LLM 的区别:

    能力

    普通大模型(LLM)

    AI Agent

    推理能力

    更系统(ReAct等框架)

    使用工具

    ✅ 可以调用工具

    与环境交互

    ✅ 可执行真实任务,感知外界信息

    状态管理

    stateless

    有记忆(memory)与状态跟踪

  • 类比:模型像是大脑,Agent 是“有手有脚能看能听的人”。


1.2 Agent 三大核心组件

组件

功能

举例

模型(Model)

决策、推理、生成语言内容

GPT-4、Gemini-1.5

工具(Tool)

实现与外部世界交互,获取/处理信息

Search API、数据库、执行器等

编排层(Orchestration)

决定如何思考、是否用工具、如何反复尝试直到完成任务,目前多用相关框架实现,负责维护记忆、状态、推理和规划

ReAct、LangGraph、CoT 等

image-20250630152356496


二、推理框架

在 AI Agent 系统中,“推理框架(Reasoning Framework)” 是一个非常核心的概念,它决定了智能体(Agent)在面对任务时,如何思考、决策、规划、调用工具并最终完成目标

推理框架是 Agent 执行任务时的“思维流程设计”,它定义了:

  • Agent 如何理解任务

  • 如何拆解为子任务

  • 是否调用工具、如何调用

  • 如何观察反馈并继续调整

  • 如何判断任务完成

👉 简单说:它是 Agent 的“思维逻辑模版”

以下是常见的推理框架:

2.1 ReAct(Reason + Act)

  • 最基础的 Agent 推理架构。

  • 过程:

    1. 🤔 Thought(思考)——是否需要工具

    2. 🛠️ Action(调用工具)——如 Search

    3. 👀 Observation(观察)——获取结果

    4. 🔁 循环直到得出最终答案

  • 代表性框架:LangChain ReAct Agent、OpenAI Plugin Agent。


2.2 CoT(Chain of Thought)

  • 提供显式的“分步骤”提示,引导模型思维展开。

  • 适合数学、逻辑、多步骤推理。


2.3 ToT(Tree of Thought)

  • 多路径、多分支探索(像搜索树)

  • 可并行探索多个思路,再投票决定最佳路径。

  • 适合复杂策略任务,如规划、博弈、代码自动修复。


三、工具类型对比

3.1 Extension(后端闭环插件)

3.1.1 概念

  • 含义:在 Agent 后端集成的标准化 API 插件,通过示例提示教会模型调用;

  • 执行位置:模型内部/Agent 服务器端;

  • 特点

    • Agent 可直接调用 API,无需额外编码;

    • 支持动态选择最适用的 Extension;

    • 实时访问最新数据;

  • 使用示例

    • 集成 Google Flights、Google Places 等;

    • 模型根据用户意图自动选用 Extension,然后 Agent 执行;

  • 优缺点

    • 优点:闭环执行、模型智能控制;

    • 缺点:需要在服务端信任模型,权限管理更复杂;

3.1.2 需求:预定航班的 Agent

假设你想创建一个帮用户预订航班的 Agent,并使用 Google Flights API 来搜索航班信息, 但不确定如何让你的 Agent 调用这个 API。

img

3.1.3 实现方式一:传统方式,写代码解析参数

传统解决方式是写代码,从用户输入中解析城市等相关信息,然后调用 API。 例如,

  • 用户输入 “I want to book a flight from Austin to Zurich”(“我想从奥斯汀飞往苏黎世”); 我们的代码需要从中提取“Austin”和“Zurich”作为相关信息,然后才能进行 API 调用。

  • 但如果用户输入“I want to book a flight to Zurich”,我们就无法获得出发城市信息,进而无法成功调用 API,所以需要写很多代码来处理边界 case。

显然,这种方法维护性和扩展性都很差。有没有更好的解决方式呢? 这就轮到 exntension 出场了。

3.1.4 实现方式二:使用 Extension

image-20250630152636351

如上图所示,Extension 通过以下方式将 Agent 与 API 串起来:

  1. 提供示例信息教 Agent 如何使用 API

  2. 告诉 Agent 调用 API 所需的具体参数

Extension 可以独立于 Agent 开发,但应作为 Agent 配置的一部分。 Agent 在运行时,根据提供的示例和模型来决定使用哪个 extension 来处理用户的查询, 这突出了 extension 的一个核心优势:built-in example types, 允许 Agent 动态选择最适合所执行任务的 extension,如下图所示,

img

3.2 Function(前端控制调用)

3.2.1 概念

  • 含义:模型生成函数调用意图(JSON),实际执行在前端或client

  • 注意:agent的模型根据输入选择合适的函数,但是不执行,交给客户端执行;

  • 执行位置:由客户端系统(浏览器、后端服务)执行;

  • 特点

    • 对数据流和系统执行进行细粒度的控制

    • 利用 Agent 和模型生成结构化的信息,方便作为下一步的输入。

  • 适合场景:支付系统、医疗流程、审批流程。

img

3.2.2 案例:推荐去滑雪的城市

img

具体步骤:

🧩 Step 1:用户输入

🧩 Step 2:Agent 构造 prompt + 示例发给模型

🧩 Step 3:模型生成 Function 调用意图(JSON),注意这里没有执行函数,只是建议使用这个函数

🧩 Step 4:前端拦截 JSON 并发起实际 API 调用

🧩 Step 5:API 执行并返回结果

🧩 Step 6:最终返回用户可读结果

3.3 Data Storage(向量数据库 + RAG)

3.3.1 概念

  • 含义提供动态更新的信息,允许开发人员以原始格式向 Agent 提供增量数据,将传入的文档将被转换为一组向量数据库嵌入embedding),Agent 可以使用这些 embedding 来提取信息。

  • 向量数据库 :Agent 使用的数据库一般是向量数据库,它们以向量 embedding 的形式存储数据

  • 特点

    • 使用 embedding 做语义索引;

    • 可补充 LLM 训练盲区、最新内容;

  • 使用流程

    1. (后端)文档→嵌入→存入 Vector DB,数据库实时更新

    2. 用户问题→嵌入→向量检索;

    3. 最相关文档(top‑K)作为上下文输入模型生成答案;

      img

  1. 用户 query 送到 embedding 模型,生成 query 的 embedding 表示。

  2. 将 query embedding 与向量数据库的内容进行匹配,本质上就是在计算相似度。

  3. 将相似度最高的内容以文本格式发送回 Agent。

  4. Agent 决定响应或行动。

  5. 最终响应发送给用户。

  • 优缺点

    • 有助于减少“幻觉”,内容精确;

    • 流程复杂,需管理 DB + embedding 模型;

3.3.2 实例:询问最新育儿政策

img

image-20250630154739564


四、相关知识点概念

4.1 向量数据库嵌入(embedding)是什么

嵌入(Embedding)是把文字、图片等信息“翻译”成模型能理解的“向量”(一组数字),用于比较语义相似性

4.2 RAG是什么

RAG(检索增强生成) 全称是:Retrieval-Augmented Generation。

它是一种将 知识检索(Retrieval) 与 大语言模型(LLM)的生成能力(Generation) 相结合的方法

类比:

大语言模型(比如 GPT、Gemini):

​ 是「闭卷考试」:靠自己训练时学到的知识回答;

​ 但它可能不知道你的公司政策/最新法律/私有数据!

RAG 让它「开卷考试」,先**查资料(知识检索,通过比较语义相似性)**再作答!

4.3 提示词工程(Prompt Engineering)是什么?

Prompt Engineering 就是**设计、构造能有效驱动大模型输出预期内容的提示语(Prompt)**的过程。

你可以理解它为:

“和大模型打交道的艺术与科学”——我们通过设计好的指令/提示(Prompt),引导模型朝着我们期望的方向输出内容。

大模型本身并不能读心,它只根据输入的 Prompt 推测该如何回答。因此:

没有 Prompt Engineering

有 Prompt Engineering

“翻译这句话” → 输出不确定

“请翻译成简体中文,语气正式,保留专有名词” → 明确控制输出

“请总结这段话” → 风格随意

“请用三点总结,保持简洁,每点不超过20字” → 有结构

参考链接

[译] AI Agent(智能体)技术白皮书(Google,2024)

0

评论区