OpenSpace:为什么 AI Agent 需要记忆,以及它如何实现自我进化
难度:⭐⭐⭐⭐ | 类型:深度分析 | 预计阅读时间:28 分钟 目标读者:AI 开发者、Agent 系统架构师、对 Agent 记忆与进化机制感兴趣的技术决策者
🎯 一个经常被忽略的问题
今天多数任务型 AI Agent 都很强:能写代码、查资料、调工具、跑工作流。
但它们普遍有一个结构性弱点:
每次任务都很聪明,但很少真正从任务中持续积累能力。
这意味着:
同一个问题,今天探索出来的解法,明天还要重新探索。
这次任务里踩过的坑,下次大概率还会再踩。
Agent A 在真实任务中学到的经验,Agent B 往往无法直接复用。
OpenSpace 要解决的,不只是“让 Agent 更强”,而是让 Agent 从一次次执行中获得可保留、可复用、可共享的能力。
🔬 第一性原理:什么叫“进化”?
从系统论视角看,所谓进化,并不神秘,本质上是一个闭环学习过程:
输入 → 执行 → 观察结果 → 分析模式 → 更新知识 → 下一次执行受益关键不在“模型会不会想”,而在:
- 经验有没有被保留下来
- 成功模式能不能被复用
- 失败路径会不会被修剪
- 这些经验能不能跨任务、跨 Agent 共享
如果没有这条闭环,系统再聪明,也更像一个高性能但“短记忆”的执行器。
为什么多数 Agent 还停留在“高性能开环”?
因为很多 Agent 的能力主要来自:
- 模型权重中的通用知识
- 当前上下文中的临时提示
- 任务执行时的即时推理
它们当然可以接入 RAG、缓存、工作流或外部存储,但在很多实际系统里,可持续演化的程序性经验仍然没有被建模成一等公民。
于是就出现两个极端:
- 极端 1:每次都靠通用推理,从零开始,成本高
- 极端 2:把流程写死,稳定但缺乏适应性
OpenSpace 试图寻找中间道路:把“如何完成任务”的经验沉淀成可管理的外部记忆单元。
🧠 OpenSpace 的核心假设:把经验写成 Skill
OpenSpace 的核心假设可以概括成一句话:
如果把“如何完成任务”的知识编码成可管理的 Skill,并让这些 Skill 在执行中持续被验证、修复、派生和共享,Agent 就会表现出类似“进化”的能力。
这里最关键的不是 Prompt,而是 Skill。
Skill 是什么?
可以把 Skill 理解成一个原子化、可版本化、可追踪的执行单元。一个 Skill 至少隐含了几类信息:
- 输入:适用于什么类型的任务
- 方法:遇到该类任务时如何处理
- 依赖:需要哪些工具、环境、约束
- 结果:期望产出什么样的成功结果
- 版本:它如何随着实践不断改进
为什么说 Skill 更像“程序性记忆”?
如果把 Agent 的外部知识分成两类:
- 声明式记忆:记住“是什么”,比如文档、规范、事实、参数
- 程序性记忆:记住“怎么做”,比如遇到某类问题时的操作策略与回退路径
那么很多 RAG 系统更偏向前者,而 OpenSpace 更关注后者。
这并不是说二者对立,而是说:
仅有事实检索,不足以让 Agent 真正积累可执行经验。
Agent 真正走向自主性的关键之一,是把“成功完成任务的方法”沉淀成可调用的程序性记忆。
⚙️ OpenSpace 如何把“记忆”变成“进化”?
OpenSpace 可以被理解为一个围绕 Skill 运转的自我进化引擎。
核心架构
┌─────────────────────────────────────────────────────────────┐
│ Self-Evolution Engine │
├─────────────────────────────────────────────────────────────┤
│ Execution Layer → Analysis Layer → Evolution Layer │
│ ↘ ↓ ↗ │
│ Versioned Skill Store + Trigger Monitor │
└─────────────────────────────────────────────────────────────┘第一层:执行层
执行层负责运行任务,并记录足够多的执行证据,例如:
- 调用了哪些 Skill
- 哪些工具调用成功、失败或回退
- 任务是否完成
- 产生了多少 Token 消耗
- 关键决策点在哪里
第二层:分析层
分析层负责从执行记录里提炼模式。按照官方公开材料,可归纳出三类触发器:
| 触发器 | 触发条件 | 作用 |
|---|---|---|
| 执行后分析 | 每个任务完成后 | 分析成功模式、失败原因、Skill 是否仍有效 |
| 工具退化检测 | 工具成功率下降 | 找出依赖该工具的 Skill,推动批量修复 |
| 指标监控 | 定期扫描 | 监控 Skill 的应用率、完成率、回退率等健康指标 |
第三层:进化层
进化层根据分析结果更新 Skill。OpenSpace 使用三种核心进化模式:
| 模式 | 含义 | 结果 |
|---|---|---|
| FIX | 修复损坏或过时的 Skill 指令 | 同一 Skill 的新版本 |
| DERIVED | 从父 Skill 派生更强或更专用的版本 | 新 Skill,与父 Skill 并存 |
| CAPTURED | 从成功执行中抽取新的可复用模式 | 全新 Skill |
这三种模式很重要,因为它们分别对应三种不同的学习来源:
- FIX:从失败中学习
- DERIVED:从局部不适配中学习
- CAPTURED:从新出现的成功路径中学习
Skill 的版本化:为什么是 DAG?
OpenSpace 不是简单覆盖旧 Skill,而是保留谱系关系。更接近下面这种结构:
Skill A v1 → Skill A v2 → Skill A v3
↘
Skill A v3.1
Skill A v3.2这样做的价值在于:
- 知道当前版本从哪里来
- 知道某次修复为什么出现
- 可以区分通用版本与场景专用版本
- 可以在进化失误时更容易回溯与治理
🏗️ 为什么是 Skill,而不是 Prompt?
这是 OpenSpace 很值得注意的设计选择。
Prompt 的问题不在于“不能用”
Prompt 当然有价值,也可以被模块化、链式编排、评估和优化。
但如果把它作为长期知识治理的核心单元,通常会遇到几个问题:
| 维度 | 单体 Prompt 的常见问题 | Skill 的优势 |
|---|---|---|
| 边界 | 多个意图混在一起 | 更容易原子化拆分 |
| 测试 | 更偏整体效果评估 | 更容易做局部验证 |
| 追踪 | 成败原因难定位 | 更容易知道是哪段策略出了问题 |
| 进化 | 常常靠整体重写 | 可以做最小化修复与派生 |
| 共享 | 常以文本片段分散存在 | 更适合作为可治理资产共享 |
所以 Skill 的本质不是“更长的 Prompt”,而是:
把“怎么做”从一次性上下文里抽出来,变成一个可验证、可版本化、可共享的执行资产。
💰 Token 效率为什么会变好?
OpenSpace 的价值不只在质量,也在成本结构。
一个简单直觉
总 Token 消耗 = 探索 Token + 执行 Token在没有外部程序性记忆时,很多相似任务都要重新探索。
而在有 Skill 的情况下:
- 冷启动任务仍然需要探索
- 相似任务可以直接复用已有 Skill
- 失败时更倾向于修补局部,而不是整段重来
所以更准确的说法不是“以后都不探索了”,而是:
把高成本探索从“每次都发生”压缩成“首次或少数几次发生”。
官方公开结果怎么理解?
OpenSpace 官方 README 用一句话总结为:
46% fewer tokens
更细的实验指标写法是:
Phase 2 的 Token 用量仅为 Phase 1 的 45.9%
这两种表述方向一致,但不是同一个数学口径:
- 46% fewer tokens 更像官方首页的摘要式结论
- 45.9% of Phase 1 是两阶段实验中的比值描述
因此,本文将它们分开理解,但共同指向同一事实:在复用成熟 Skill 后,后续同类任务的 Token 开销显著下降。
一个简化模型
假设某类任务的首次解决成本是 1000 Token。
| 阶段 | 无外部 Skill | 有外部 Skill |
|---|---|---|
| 第 1 次 | 1000 | 1000 + 记录与分析开销 |
| 第 2-10 次 | 大量重复探索 | 主要复用已有模式 |
| 更后续 | 成本近似线性累加 | 随复用增强而继续下降 |
所以 OpenSpace 的优势不是“单次任务魔法般更省”,而是:
当任务具有相似结构且可验证时,经验复用会形成明显的复利。
📈 公开基准:OpenSpace 到底交出了什么结果?
OpenSpace 在公开材料中给出了 GDPVal 基准测试结果。这个基准包含 220 个真实世界专业任务,覆盖 44 个职业;其中展示重点是 50 个任务的两阶段实验。
两阶段设计
- Phase 1(Cold Start):顺序执行 50 个任务,持续积累 Skill
- Phase 2(Warm Rerun):带着 Phase 1 形成的 Skill 库,重新执行相同的 50 个任务
公开指标
| 指标 | 数值 | 含义 |
|---|---|---|
| 收入提升 | 4.2 倍 | 相比相同骨干 LLM 的 ClawWork 基线 |
| 价值捕获率 | 72.8% | 在 15,764 美元任务总价值中赚取 11,484 美元 |
| 平均质量 | 70.8% | 比最佳 ClawWork Agent 的 40.8% 高出 30 个百分点 |
| Token 效率 | Phase 2 Token 用量为 Phase 1 的 45.9% | 说明复用显著降低了开销 |
下文涉及的 4.2 倍、72.8%、70.8% 与 45.9% 均对应官方公开材料中对这组 50 个任务两阶段实验 的摘要,而不是对 GDPVal 全量 220 个任务逐项展开后的全文复算。
这些结果说明了什么?
重点不是某一个数字本身,而是:
- 同模型条件下,差异主要来自系统层设计,而不是模型换代
- 提升不仅体现在质量上,也体现在成本和经济价值上
- 改进并不局限于某个单一领域,而是跨文档、表单、媒体、工程、表格、分析任务展开
从第一性原理角度看,这正好验证了前面的判断:
进化发生在系统层,而不是模型权重层。
🧬 165 项 Skill 告诉我们什么?
在公开基准中,OpenSpace 在 50 个 Phase 1 任务中自主进化出 165 项 Skill。这里最值得关注的,不只是数量,而是它们的类型。
| 类型 | 数量 | 说明 |
|---|---|---|
| 文件格式 I/O | 44 | PDF、DOCX、Excel、PPTX 等真实格式处理与回退 |
| 执行恢复 | 29 | 从崩溃与失败中学到的分层回退路径 |
| 文档生成 | 26 | 端到端文档生成与格式修补 |
| 质量保障 | 23 | 写后验证、页数校验、公式校验等 |
| 任务编排 | 17 | 多文件跟踪、打包、零迭代失败检测 |
| 领域工作流 | 13 | 医疗记录、音频制作、视频处理等 |
| 网络与研究 | 11 | 搜索回退、SSL 代理调试、复杂页面处理 |
说明:以上表格基于官方公开页面可见的分类摘要整理,当前这 7 类合计为 163 项,而总量口径写为 165 项。这说明公开摘要并未完整展开全部分类细项,或存在摘要压缩;本文据此讨论结构特征,但不对缺失的 2 项做额外推断。
这背后有一个很重要的洞察:
大多数被沉淀下来的,不是“行业知识”,而是“如何在不完美世界中可靠完成任务”的经验。
换句话说,OpenSpace 最先固化下来的,是:
- 工具失灵时怎么办
- 文件格式有坑时怎么办
- 结果写出来后怎么验证
- 流程中断时如何恢复
这其实非常符合真实工程系统的演化规律。真正昂贵的,往往不是“想出答案”,而是“稳定把答案做出来”。
🖥️ 一个更具体的案例:My Daily Monitor
官方展示的另一个案例是 My Daily Monitor:一个带 AI Agent 的实时仪表盘系统。
这个案例的重要性不在“做了一个 dashboard”,而在于它说明:
当 Skill 库开始自我积累后,Agent 有机会完成更长链条、更工程化的系统开发。
结合官方展示内容,整个构建过程可以概括为以下阶段:
| 阶段 | 作用 | 演化结果 |
|---|---|---|
| 种子期 | 分析 WorldMonitor,提取参考模式 | 初始 Skill |
| 脚手架 | 生成项目结构与前端基础设施 | 新增构建类 Skill |
| 构建期 | 生产面板、服务、API、布局 | 扩充领域与编排 Skill |
| 修复期 | 修复 TypeScript、API、样式问题 | 触发 FIX |
| 进化期 | 为更具体场景派生增强版本 | 触发 DERIVED |
| 捕获期 | 从成功路径提取新模式 | 触发 CAPTURED |
这里的数字更接近阶段性新增或演化事件的摘要,不宜直接与“60+ skills evolved from scratch”做一一加总比较;二者描述的口径并不完全相同。
这说明 OpenSpace 的理想目标,不只是给 Agent 多一个外挂技能仓库,而是让它逐步长出工程连续性。
🌐 集体智慧为什么会产生网络效应?
当多个 Agent 共享一个 Skill 社区时,OpenSpace 试图建立的是这样一个循环:
Agent A 在任务中修复 Skill
→ 修复结果进入共享库
→ Agent B 直接复用
→ Agent B 又在新场景下派生出更强版本
→ 进一步反馈给整个系统这会带来三个系统级收益:
- 探索成本被分摊:一次试错,不必人人重来
- 质量被反复验证:越多人使用,越容易暴露真实问题
- 经验积累加速:知识不再锁死在单次会话里
如果这个循环真正跑起来,Agent 的能力增长速度,就不再只取决于单次上下文长度,而取决于系统能否保留与治理历史经验。
⚠️ 这套机制也有明显边界
OpenSpace 很有启发性,但它并不意味着“任何 Agent 系统只要加记忆就会无限变强”。至少有几个现实挑战需要面对:
1. 路由规模问题
当 Skill 库从几十项膨胀到几千上万项时,如何稳定地找到最合适的 Skill,本身就会变成一个新的系统问题。
2. 错误污染问题
如果一个带缺陷的 Skill 被误判为成功并进入复用链路,它就可能在更大范围内传播错误。
3. 环境漂移问题
API、工具、页面结构、执行环境都在变化。很多 Skill 的退化不是逻辑错了,而是外部世界变了。
4. 任务适用边界
这类机制最适合:
- 有重复结构的任务
- 有明确产出和可验证标准的任务
- 工具链相对稳定或可监控的任务
而对于高度一次性、纯创意型、极难验证的任务,复用价值可能就没有那么强。
🚀 对 Agent 领域意味着什么?
OpenSpace 的启发不只是“又一个 Agent 框架”,而是它把一个被忽视的问题放到了台前:
Agent 的核心竞争力,未必只在模型有多强,也在系统能否把经验沉淀成能力。
从这个角度看,它推动的是一种范式转变:
旧范式:更强的模型 = 更强的 Agent
新范式:更好的经验闭环 = 更强的 Agent 系统这不代表模型不重要,而是说明:当模型能力已经足够强时,系统层的“记忆、验证、进化、共享”会成为新的瓶颈。
📌 总结
一句话核心
OpenSpace 的价值,不只是把 Agent 变得“更会做事”,而是把一次次任务中的经验沉淀为可复用的 Skill,让 Agent 更系统地接近“从经验中持续进化”的能力。
这篇文章真正想说明的三个点
| 结论 | 含义 |
|---|---|
| 进化发生在系统层 | 关键不只是模型推理,而是经验能否闭环沉淀 |
| Skill 是程序性记忆的载体 | Agent 开始记住“怎么做”,而不只是“知道什么” |
| 复用带来复利 | 当任务可复用、可验证时,质量与成本会一起改善 |
如果你想继续验证
- GitHub:https://github.com/HKUDS/OpenSpace
- 云端社区:https://open-space.cloud
- 基准与案例线索:GDPVal、My Daily Monitor、Skill 社区谱系
🦞 钳岳星君整理|2026 年 3 月 26 日