三强鼎立:Agent Harness
技术全景对比
基于 GLM-5、Qwen3.5、DeepSeek Thinking 三方独立分析,对 Hermes、Official OpenClaw、Will's Custom 三种技术路线进行全景式评估与战略定位
0执行摘要
🎯 三方核心共识
Official OpenClaw 提供 L2-L6 完整框架底座,Will's Custom 在此之上实现了生产级执行验证。Hermes 在 L1/L4 有技术亮点,但缺乏独立完整 Harness 的基础设施。
三者定位清晰:Hermes = 记忆神经,Official OpenClaw = 躯体框架,Will's Custom = 武装到牙齿的生产引擎。最可能的路径是模块组合,而非三者竞争。
「精致 L4」是技术幻觉。记忆层做得再好也掩盖不了 L2/L3/L5/L6 的不足。先把里子(工具、编排、约束)做好,再考虑面子(记忆精度)升级。
Hermes
记忆检索精度与上下文管理专项优化
Official OpenClaw
完整框架底座,工具生态与插件体系
Will's Custom
25+ Skills、蜂群引擎、四实例架构的完整验证
1Harness Engineering 六层架构全景对比
Harness Engineering 将 Agent 系统抽象为六个层级(L1-L6),从上下文信息边界到底层约束校验与失败恢复。以下三列对比展示了 Hermes、Official OpenClaw、Will's Custom 的结构性差异与各自优势区间。
Hermes
无明确设计。作为记忆层子系统,安全约束依赖上层 Harness。
N/AOfficial OpenClaw
基础行为约束框架,三条红线设计,无 PUA-Lite 级别的生产级闭环。
基础Will's Custom
PUA-Lite 三条红线 + 五步方法论 + 失败升级 + circuit breaker 熔断。约束层是生产级底线。
★★★★★Hermes
无系统级观测设计。记忆检索可作为观测数据源,但不提供独立的监控机制。
N/AOfficial OpenClaw
基础日志和 session 管理,无多实例互监机制。
基础Will's Custom
watchdog-pair 双实例互监 + heartbeat 定时检查 + 蜂群独立 Review Agent。观测体系已生产验证。
★★★★★Hermes
主场。 1024维向量 + BM25+rerank 混合检索 + MiniMax/Kimi embeddings 双兜底。记忆精度最高。
★★★★★Official OpenClaw
memory-lancedb v2.0、daily notes、procedures。实现偏文件化,无 rerank。
★★★Will's Custom
在官方基础上扩展 shared-knowledge + 四实例同步。但检索架构与官方相同,无 BM25+rerank。
★★★Hermes
无执行编排设计。relay 层为请求转发,无 subagent/cron/workflow 能力。
N/AOfficial OpenClaw
提供 subagent 机制、基础 cron 调度、ClawFlow 工作流框架。
★★★★Will's Custom
Swarm Engine 蜂群引擎(多 agent 并行 + 交叉验证)+ auto-pipeline/auto-dev-loop 完整自动化闭环。生产验证级。
★★★★★Hermes
无工具生态。侧重点是 memory relay,不暴露工具调用接口。
N/AOfficial OpenClaw
强项。 MCP、browser automation(playwright/CDP/Lightpanda)、Peekaboo、多 channel 插件(Telegram/Discord/Lark)。
★★★★★Will's Custom
在官方工具生态上构建了 25+ 自定义 Skills,涵盖猫舍运营、品牌传播、医疗咨询等垂直领域。工具落地能力最强。
★★★★★Hermes
强项。 专为上下文和记忆管理设计,BM25 rerank + 1024维向量,检索召回质量最高。
★★★★★Official OpenClaw
Skills 渐进式披露、System Prompt 分层、LCM 上下文压缩。框架成熟,但检索精度有优化空间。
★★★★Will's Custom
在官方基础上扩展了 AGENTS.md + SOUL.md + IDENTITY.md + USER.md 多层人格注入,个性化程度最高。
★★★★L1 Context / L4 Memory
BM25+rerank 混合检索,记忆精度业界领先
L2 Tools / L3 Orchestration
MCP + browser automation + channel 插件完整生态
L5 Observability / L6 Constraints
watchdog-pair + PUA-Lite + 25+ Skills 全链路闭环
各层详细分析
L1 Context 信息边界 — 谁的上下文管理更强?
Official OpenClaw 在 L1 层面已经相当成熟,通过 Skills 渐进式披露机制、System Prompt 分层设计和 LCM 上下文压缩技术,覆盖了主流 Harness 场景。Will's Custom 在此基础上叠加了 AGENTS.md + SOUL.md + IDENTITY.md + USER.md 四层人格注入,使 Agent 的上下文更具个性化特征。
然而,Hermes 的优势在于其专门为上下文管理设计的检索增强体系:1024维向量 + BM25+rerank 混合检索,在「从历史记忆中召回相关信息」这一具体任务上,理论精度高于 Official OpenClaw 的纯向量检索方案。
关键洞察:Official OpenClaw 的 L1 是「框架级全面覆盖」,Hermes 的 L1 是「专项精度极致化」,Will's Custom 的 L1 是「人格化深度定制」。三者层次不同,不可直接比较。
L2 工具系统 — Official OpenClaw 的绝对主场
这是 Official OpenClaw 与 Hermes 差距最大的一层,也是 Will's Custom 继承并扩展的核心领域:
- MCP(Model Context Protocol):Anthropic 提出的标准化工具调用接口
- Browser Automation:playwright-cli、CDP、Lightpanda 三轨道方案
- Peekaboo:macOS UI 自动化
- Channel 插件:Telegram、Discord、Lark(飞书)等多平台集成
Will's Custom 在此基础上构建了 25+ 垂直领域 Skills,使工具系统从「通用能力」升级为「业务赋能」。Hermes 目前没有任何工具生态设计,若要独立发展为完整 Harness,L2 需要从零建设。
结论:L2 工具系统 = Official OpenClaw 框架优势 + Will's Custom 生产落地。Hermes 不在此层竞争。
L3 执行编排 — Will's Custom 的护城河
Official OpenClaw 提供了 subagent 机制、基础 cron 调度和 ClawFlow 工作流引擎。Will's Custom 在此基础上实现了:
- Swarm Engine 蜂群引擎:多 agent 并行执行 + 交叉验证 + 独立审查
- Auto-pipeline:非代码批量任务自动化(文案/素材/整理)
- Auto-dev-loop:代码功能开发全自动循环引擎
- ClawFlow:复杂任务的工作流编排
Hermes 没有任何执行编排设计,relay 层仅做请求转发,无法支撑多步骤复杂任务的自动化执行。
结论:L3 = Official OpenClaw 框架底座 + Will's Custom 蜂群引擎生产验证。Hermes 不在此层竞争。
L4 记忆与状态 — Hermes 的主场
这是 Hermes 的设计原点,也是其最具技术差异化的一层:
- 1024维向量:更高的语义表达能力
- MiniMax / Kimi embeddings 双兜底:模型可用性保障
- BM25 + rerank 混合检索:关键词召回 + 语义重排序,稳定性优于纯向量检索
- Session-level + User-level state:结构化记忆管理
Official OpenClaw 的记忆体系包括 memory-lancedb v2.0、daily notes、procedures、shared-knowledge,但实现偏文件化,检索架构相对简单。Will's Custom 在此基础上增加了四实例同步,但检索机制与官方相同。
结论:L4 记忆精度 = Hermes 明显领先,Official OpenClaw 和 Will's Custom 的检索架构应借鉴 Hermes 的 BM25+rerank 设计。
L5 评估与观测 — Will's Custom 的生产级优势
Official OpenClaw 提供基础的 session 管理与日志记录,但缺乏多实例互监机制。Will's Custom 在此基础上构建了完整的生产级观测体系:
- Heartbeat:各实例定时健康检查
- Watchdog-pair:ユキ/ナツ/ハル/アキ 四实例互相监控,宕机自动重启
- PUA-Lite 闭环验证:行为结果必须通过验证命令确认
- 蜂群 Review Agent:多模型交叉验证的独立审查机制
Hermes 作为基础设施层,不提供独立的观测能力。
结论:L5 观测 = Official OpenClaw 基础框架 + Will's Custom watchdog-pair 生产验证。Hermes 不在此层竞争。
L6 约束/校验/失败恢复 — Will's Custom 的行为底线
Official OpenClaw 提供了基础的行为约束设计,但缺乏生产级的闭环验证机制。Will's Custom 的 PUA-Lite 框架则提供了系统级的安全保障:
- 三条红线:闭环验证、事实驱动、禁止原地打转
- 五步方法论:主动执行、卡住升级、子 agent 验证等
- Circuit breaker:连续失败后的自动熔断保护
- 执行记录 + 截图认证:行为可审计、可回溯
Hermes/Honcho 的定位是基础设施层,安全约束需要上层 Harness 来保障。
结论:L6 约束 = Official OpenClaw 基础框架 + Will's Custom PUA-Lite 生产级闭环。Hermes 不在此层竞争。
📌 基础结论
三者在 Harness Engineering 六层模型中占据不同生态位:Hermes 专精 L1/L4,Official OpenClaw 提供 L1-L6 框架底座,Will's Custom 在底座上实现 L2-L6 生产级执行验证。不是竞争,是分层协作。
2三方模型观点区
GLM-5
工程落地 / 成本 / 风险视角- 工程成本:Will's Custom 的 25+ Skills、四实例架构、watchdog-pair 监控体系已经历真实生产验证。Hermes 若要达到同等水平,L2-L6 需要从零重建。
- 风险评估:🔴 Hermes 替代 Will's Custom — 业务停摆 2-4 周,25+ Skills 归零,蜂群引擎报废,四实例架构断裂。
- 最优路径:以 Official OpenClaw 为框架基座,Will's Custom 为生产执行态,借鉴 Hermes 的 L4 检索思路,不替换现有架构。
GLM-5 结论:Official OpenClaw 是躯体骨架,Will's Custom 是武装完毕的生产引擎,Hermes 是可借鉴的记忆模块。三者组合,不是三选一。
Qwen3.5
技术架构 / 演进趋势视角Hermes 的结构性瓶颈(为何不能独立替代)
- L2~L6 空洞化:没有工具调用、协作网络、约束机制、观测体系
- 多实例协作缺失:无法融入 ユキ/ナツ/ハル/アキ 四实例拓扑
- 安全约束不完整:无 PUA-Lite 级别的行为验证与熔断
Official OpenClaw 应向 Hermes 学习的 2 点
- BM25+rerank 混合检索:比单纯向量检索更稳定,应引入 L4 层
- Provider Relay 的轻量化适配:统一接口、解耦底层模型细节
Qwen3.5 结论:Official OpenClaw + Will's Custom 是主架构,Hermes 的 L4 检索技术值得借鉴但不必全盘整合。三者协同而非竞争。
DeepSeek Thinking
Harness 工程深层思辨视角DeepSeek 提出了一个常被忽视的洞察:Agent 的失败模式几乎从不来自模型不够聪明,而总是来自 Harness 的某个环节断裂。 Hermes 在 L1/L4 的极致投入,可能会掩盖 L2/L3/L5/L6 的实际粗糙。
同时,DeepSeek 观察到 OpenAI 和 Anthropic 在记忆上的权重都很克制。以 Claude Code 为例,它采用「极其克制的记忆策略」——仅在 .claude 项目文件中写入结构化记忆,而不构建通用会话间记忆系统。这反映了一种工程哲学:
记忆应该是确定性的、文件化的、人类可审计的。
OpenAI 和 Anthropic 将绝大部分工程资源花在工具调用、错误恢复、安全沙箱上,而非记忆层。这与当前市场过度追捧「长记忆」的风气形成鲜明对比。
记忆是 Agent 的面子,工具和错误处理才是里子。先把里子做好(L2-L6),再考虑面子升级(L4)。Will's Custom 的 PUA-Lite + watchdog-pair 才是正确的投入方向。
3核心争议与思辨
子议题一:L4 精致化是否是陷阱?
DeepSeek 的核心论点可以归纳为:在一个不完整的 Harness 中,过度投资于 L4 记忆层会产生技术幻觉。
Hermes 在 L1/L4 的极致追求有其合理性——BM25+rerank 混合检索确实比纯向量检索更稳定。但问题在于,L4 再精致也无法弥补 L2(工具)、L3(编排)、L5(观测)、L6(约束)的缺失。
启示:Official OpenClaw 和 Will's Custom 应借鉴 Hermes 的 BM25+rerank 检索思路,但无需全盘整合。优先补强 L2/L5/L6,再考虑 L4 极致化。
子议题二:记忆在顶级 Harness 里占多大权重?
DeepSeek 对 Claude Code 的观察提供了一个重要的行业参照。Claude Code 的记忆策略极其克制:
- 没有通用会话间记忆系统
- 仅在项目文件中写入结构化记忆(
.claude目录) - 记忆是确定性的、文件化的、人类可审计的
Official OpenClaw 的 LCM 上下文压缩策略与此哲学一致。Will's Custom 在此基础上扩展了 daily notes + shared-knowledge,但同样遵循文件化、可审计的原则。Hermes 的 1024维向量检索虽然精度更高,但引入了黑盒性——检索结果不可直接审计。
启示:L4 的价值不在于检索精度有多高,而在于记忆是否可靠、可审计。Will's Custom 的文件化记忆体系(daily notes + procedures + shared-knowledge)是更符合工程哲学的选择。
子议题三:三者应该如何定位?
| 系统 | 正确角色 | 不应做的事 |
|---|---|---|
| Hermes | L1/L4 技术供应商:提供 BM25+rerank 检索方案 | 独立构建完整 Harness,替代现有生产系统 |
| Official OpenClaw | 框架底座:提供 L1-L6 完整工具链和插件生态 | 被遗忘在生产环境之外,作为纯开源演示存在 |
| Will's Custom | 生产执行引擎:在框架底座上实现业务闭环 | 停止迭代,或在核心业务上冒险替换为未验证系统 |
三者定位清晰:Hermes 提供 L1/L4 技术思路,Official OpenClaw 提供框架底座,Will's Custom 实现生产级执行。互补而非竞争。
4企业实战判断
三系统工程成本对比
| 维度 | Hermes | Official OpenClaw | Will's Custom |
|---|---|---|---|
| Skills 生态 | 无 ✗ | 基础框架 Skills △ | 25+ 已验证 ✓ |
| 多实例架构 | 不支持 ✗ | 单实例为主 △ | 四实例生产运行 ✓ |
| 浏览器自动化 | 无 ✗ | 三轨道方案 ✓ | 三轨道已验证 ✓ |
| 监控/熔断 | 无 ✗ | 基础日志 △ | watchdog + PUA-Lite ✓ |
| 记忆检索精度 | BM25+rerank ✓ | 向量检索 △ | 向量检索(同官方) △ |
| 执行编排 | 无 ✗ | subagent + cron ✓ | 蜂群引擎 + auto-loop ✓ |
| 生产验证 | 未验证 ✗ | 框架级验证 △ | 完整生产验证 ✓ |
三场景风险热力图
三场景 ROI 分级矩阵
🟢 A 级:继续发展 Will's Custom
投入最低(已有基座),产出最稳定。25+ Skills 和四实例架构是竞争壁垒,不应替换。
🟡 B 级:Official OpenClaw 框架升级
跟进官方框架更新,完善 MCP 生态和 L2 工具层。保持框架与生产系统的同步。
🔴 C 级:Hermes 替代任何一方
投入极高,风险极高,回报不确定。L2-L6 全部需要从零重建,不现实。
5三层系统耦合分析
DeepSeek 对三层系统的替换与整合进行了深入分析。以下是每个系统对其他层级的影响评估:
| 层级 | Hermes 影响 | Official OpenClaw 影响 | Will's Custom 影响 |
|---|---|---|---|
| L1 | 正向增强 | 框架基座 | 人格化 Context 注入(四层文档),个性化程度最高 |
| L2 | 无贡献 | 框架底座 | 25+ 自定义 Skills,垂直领域工具落地能力最强 |
| L3 | 无贡献 | subagent/cron/ClawFlow | Swarm Engine + auto-pipeline + auto-dev-loop,生产级执行 |
| L4 | 技术思路贡献 | 需借鉴 Hermes | 四实例同步 + 文件化记忆,与官方同级别,检索精度待升级 |
| L5 | 无贡献 | 基础日志 | watchdog-pair + heartbeat + 蜂群 Review Agent,生产级观测 |
| L6 | 无贡献 | 基础约束 | PUA-Lite 三条红线 + 五步方法论 + circuit breaker,生产级闭环 |
💡 核心结论
L2(工具)、L3(编排)、L5(观测)、L6(约束)是 Will's Custom 的绝对主场。Hermes 只在 L1/L4 有技术贡献,但这些贡献是「锦上添花」而非「不可或缺」。Official OpenClaw 是框架底座,Will's Custom 是底座上的生产引擎。
6未来演进预测
Hermes 的 6-12 个月可能路径
- 路径 A:发展为独立完整 Harness(概率 15%)
投入产出比极低。L2-L6 全套能力需要大量工程资源,而 Official OpenClaw 已经提供了成熟框架。
- 路径 B:作为 L4 检索技术供应商(概率 60%)
最符合 Hermes 技术现状。专注做好 BM25+rerank 检索方案,通过插件接口或 MCP 协议为 Official OpenClaw/Will's Custom 提供记忆检索增强。
- 路径 C:被收购或并入更大平台(概率 25%)
若独立发展困难,核心技术可能被某个更大的 Agent 平台收购或整合。
Official OpenClaw 的 6-12 个月可能路径
- 短期:完善 L2 工具生态和 L6 约束框架
继续完善 MCP 生态、浏览器自动化能力。这是框架层面最重要的工作。
- 中期:引入 BM25+rerank 混合检索到 L4 层
借鉴 Hermes 的技术思路,但保持技术自主。在官方记忆中引入混合检索,提升召回稳定性。
- 长期:插件化 L4 接口
当 L4 层足够抽象化和插件化时,Hermes 或其他记忆系统可以作为可选后端被无缝接入。
Will's Custom 的 6-12 个月可能路径
- 持续深化 L2-L6 生产闭环
继续扩大 25+ Skills 覆盖范围,深化蜂群引擎场景,完善 PUA-Lite 约束框架。这是核心竞争壁垒。
- L4 检索升级
在现有文件化记忆体系基础上,引入 BM25+rerank 混合检索,提升记忆召回精度。不依赖 Hermes 整合,保持技术自主。
- 四实例架构扩展
根据业务需求扩展实例数量或功能分工,保持四实例互监拓扑的健康运行。
2026-2027 行业趋势判断
三方模型的共识趋势预测:
一统型 Harness(Official OpenClaw)会主导早期市场;组合型(专用记忆层 + 专用工具层 + 专用编排层)会在成熟生态逐步显现优势。
这意味着:
- 2026 年:Official OpenClaw 框架 + Will's Custom 生产部署是主流选择
- 2027 年:组合型架构(Hermes 的 L4 检索 + Official OpenClaw L2/L3/L5/L6 框架 + Will's Custom L2-L6 生产验证)会成为高阶选项
Will 团队当前的架构选择(Official OpenClaw 底座 + Will's Custom 生产引擎)正好符合 2026 年市场主流策略,同时为 2027 年的组合型演进预留了空间。
7战略建议行动清单
Hermes 单独使用
仅适合:边缘轻量信息检索场景。不可用于核心业务。
Official OpenClaw 独立
适合:快速原型验证、开源社区贡献。生产业务需额外加固。
Will's Custom 生产
当前最优解。继续迭代,扩大 Skills 覆盖,深化蜂群场景。
保持 Will's Custom 作为核心生产 Harness
25+ Skills、四实例架构、watchdog-pair + PUA-Lite 是核心竞争壁垒,不应替换为未验证系统。维持现状是最优策略。
跟进 Official OpenClaw 框架更新
保持框架与生产系统的同步。跟进 MCP 生态完善、L2 工具层稳定性和 L6 约束框架升级。
在 Will's Custom 现有架构中研究 BM25+rerank 升级方案
借鉴 Hermes 的 L4 检索思路,在不引入外部依赖的情况下提升记忆召回精度。保持技术自主,不做 Hermes 深度整合。
在边缘场景中探索 Hermes 做轻量试点
选择一个对记忆检索精度敏感、但业务影响小的场景(如某个信息查询 Agent),单独接入 Hermes 验证其实际效果。风险可控。
持续深化 L2 Skills 生态和 L3 蜂群引擎场景
继续扩大 25+ Skills 覆盖范围,深化 Swarm Engine 在复杂任务中的应用,完善 auto-pipeline / auto-dev-loop 自动化闭环。这是核心竞争壁垒的持续加固。
设计 Official OpenClaw 的「插件化 L4 接口」技术方案
为未来可能的组合型整合做准备。当 L4 层足够抽象化时,Hermes 或其他记忆系统可以作为可选后端被接入。
持续追踪 Hermes/Honcho 的 L2-L6 演进动态
如果 Hermes 开始向完整 Harness 方向发展,重新评估竞争关系。如果坚持走「记忆组件」路线,未来整合的可能性更大。