一份基于“AI智能体终极知识图谱”的可视化报告
所有智能体的行为都遵循一个永恒的循环:感知 → 决策 → 行动。这完美映射了人类的结构化思维:理解现状 → 分析方案 → 执行验证。
通过数字“五官”收集关于世界状态的原始数据。
大脑对信息进行推理、规划,并利用记忆形成行动蓝图。
通过数字“手脚”对世界产生影响,完成任务。
点击下方的标签,探索构成智能体的三大核心支柱:大脑(决策)、五官(感知)和手脚(行动)。
这是智能体“智能”的集中体现。一个完整的决策过程包含:理解 → 规划 → 记忆与上下文管理。
AI通过此机制模拟人类“有重点地理解信息”的能力。它通过三个步骤工作,以深化对上下文的理解:
为每个词分配查询(Q)、键(K)、值(V)三个身份。
计算Q和K的“关联度得分”(余弦相似度)。
根据得分,将所有V加权混合,更新词的含义。
例: 在“机器人 喝 果汁”中,“喝”的含义会从泛泛的“饮用”,深化为特指“机器人饮用果汁”这个场景。
智能体通过规划来制定行动蓝图。它不仅能像CoT一样线性思考,还能像ToT一样探索多个分支,选择最优路径。
例: 规划旅行时,ToT会同时评估“岚山路线”(体力消耗低)和“清水寺路线”(步行太多),最终选择最优方案。
这是决策过程的核心输入,用于解决大模型“短期记忆”有限的问题。它依赖于一个清晰的协议(MCP)和一个强大的外部记忆系统(RAG)。
模型上下文协议(MCP)将所有信息结构化,AI大脑看到的提示词由多部分构成:
AI通过嵌入模型理解语义。语义相近的句子,其向量距离也越近。
RAG是智能体的“图书管理员”,它从“知识库”(图书馆)中检索信息来防止“幻觉”,确保回答有事实依据。
传感器的质量和多样性,决定了智能体对世界理解的深度。对于软件智能体,其传感器是用来读取和解析数字信息的“探针”。
以结构化、可预测的方式,从其他软件获取信息。优点是稳定、可靠,无歧义。
从非结构化的网页(HTML)中提取有价值的信息。优点是灵活,缺点是网站改版易失效。
感知自身或软件环境的内部状态(如“Error”日志),从而触发决策,实现自我修复。
将决策阶段制定的蓝图付诸实施,与外部世界互动。这依赖于一个核心执行框架和丰富的工具箱。
智能体执行任务的基本模式,像侦探破案一样,不断循环,直到目标完成。
ReAct 循环示例:
在交付结果前,智能体会扮演“审稿人”,用一套预设原则检查初稿,找出逻辑矛盾或可优化之处,并进行修正。
AI通过标准化的定义(如JSON Schema)来理解和使用工具。
赋予AI精确计算和数据分析能力。例:动态编写Python代码来分析Excel销售数据。
让AI与真实世界的软件互动。例:调用 `search_flights(...)` API来查询机票。
深入剖析 Cursor 编辑器的智能体架构实现,展示感知-决策-行动-验证的完整闭环。
感知 → 决策 → 行动 → 验证
一个典型的“代码开发智能体”。它通过编辑器API(感知),将用户的代码和指令打包成“超级提示词”交由LLM(决策),最后以“差异化视图”的形式呈现结果(行动)。
AIGC是“创作者”(如写文章),智能体是“行动者”(如完成策划)。AIGC是智能体用来完成任务的工具之一。
如何确保AI的目标与人类复杂的价值观完全对齐?“回形针最大化”思想实验警示了这一风险。
AI从有偏见的人类数据中学习,可能放大社会偏见,造成“AI招聘助理”那样的系统性不公。