← 返回

AI Agent

Agent 是能自主规划、使用工具、完成复杂任务的 AI 系统。

从 Chat 到 Agent

Chat：你问，LLM 答

用户: "北京天气？"
LLM: "抱歉，我没有实时数据..."

Agent：LLM 决定调用工具

用户: "北京天气？"
LLM: 需要调用天气API → 获取数据 → 生成回答

Agent 核心组件

1. Planning（规划）

把大任务分解成小步骤
反思和调整计划
处理不确定性

2. Memory（记忆）

短期记忆：当前对话历史（context window）
长期记忆：向量数据库存储过往信息
工作记忆：当前任务的中间状态

3. Tools（工具）

搜索（网络、数据库）
执行代码（Python、Bash）
调用 API（天气、计算器等）
文件操作（读写、解析）

Agent 工作流程

1. 接收任务
   ↓
2. 规划步骤 (Plan)
   ↓
3. 选择工具 (Tool Selection)
   ↓
4. 执行工具 (Tool Execution)
   ↓
5. 观察结果 (Observation)
   ↓
6. 反思调整 (Reflection)
   ↓
7. 重复 3-6 直到完成

Agent 类型

1. ReAct Agent

Reasoning + Acting
最基础的模式
循环：思考 → 行动 → 观察

2. Plan-and-Execute Agent

先规划所有步骤
再依次执行
适合明确任务

3. Multi-Agent

多个 Agent 协作
角色分工（研究员、程序员、审稿人）
更复杂任务

4. Autonomous Agent

完全自主运行
自我反思和修正
长期目标导向

Agent 框架

框架	特点	适用场景
LangChain	最流行，生态丰富	通用
CrewAI	多 Agent 协作	团队协作任务
AutoGen	Microsoft 开源	多 Agent 对话
OpenAI Agents	官方支持	GPT-4o 集成
Claude Computer Use	直接操作电脑	GUI 自动化

常用工具

搜索类

Google Search / Bing Search
Tavily（AI 优化搜索）
DuckDuckGo（隐私搜索）

代码类

Python REPL（执行代码）
Jupyter Notebook
Bash（命令行）

文件类

文件读写
PDF/Word 解析
CSV/Excel 处理

API 类

天气 API
股票查询
邮件发送

简单示例 (LangChain)

from langchain.agents import create_openai_functions_agent, AgentExecutor
from langchain.tools import Tool
from langchain_openai import ChatOpenAI

# 定义工具
def search_web(query: str) -> str:
    """搜索网络"""
    # 实现搜索逻辑
    return f"搜索结果: {query}"

tools = [
    Tool(
        name="Search",
        func=search_web,
        description="搜索网络信息，输入为搜索关键词"
    ),
    Tool(
        name="Calculator",
        func=lambda x: str(eval(x)),
        description="执行数学计算，输入为数学表达式"
    )
]

# 创建 Agent
llm = ChatOpenAI(model="gpt-4o")
agent = create_openai_functions_agent(llm, tools)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 运行
result = agent_executor.invoke({
    "input": "搜索人工智能的最新进展，然后计算它的发展年数"
})

Multi-Agent 示例 (CrewAI)

from crewai import Agent, Task, Crew

# 定义 Agent
researcher = Agent(
    role="研究员",
    goal="研究给定主题",
    backstory="你是一位经验丰富的研究员",
    llm=ChatOpenAI(model="gpt-4o")
)

writer = Agent(
    role="作家",
    goal="将研究发现写成文章",
    backstory="你是一位科普作家",
    llm=ChatOpenAI(model="gpt-4o")
)

# 定义任务
research_task = Task(
    description="研究 RAG 技术的原理和应用",
    agent=researcher,
    expected_output="详细的研究报告"
)

write_task = Task(
    description="将研究报告写成科普文章",
    agent=writer,
    expected_output="通俗易懂的科普文章"
)

# 创建 Crew
crew = Crew(
    agents=[researcher, writer],
    tasks=[research_task, write_task],
    verbose=True
)

# 执行
result = crew.kickoff()

常见问题

Q: Agent 幻觉怎么办？

明确工具描述和使用场景
要求 Agent 解释推理过程
人工审核关键决策

Q: 如何提升 Agent 可靠性？

添加验证步骤
使用更强大的模型（GPT-4, Claude Opus）
限制工具调用次数
设置超时和失败处理

Q: Agent 成本高怎么办？

使用更便宜的模型规划（GPT-4o-mini）
缓存常见查询结果
限制迭代次数
只在必要时调用 Agent