🟠 Hermes

记忆层专用系统。Honcho 架构，1024维向量 + BM25+rerank 混合检索，专注 L1/L4 记忆管理精度的极致化。

🔵 Official OpenClaw

开源 Harness 框架（github.com/openclaw/openclaw）。覆盖 L1-L6 完整框架，提供工具生态、MCP、browser automation、channel 插件等基础能力。

🟢 Will's Custom

基于官方框架的生产级部署：25+ 自定义 Skills、蜂群引擎、PUA-Lite 约束框架、四实例架构（ユキ/ナツ/ハル/アキ）、watchdog-pair 监控。

多模型交叉验证报告

三强鼎立：Agent Harness
技术全景对比

基于 GLM-5、Qwen3.5、DeepSeek Thinking 三方独立分析，对 Hermes、Official OpenClaw、Will's Custom 三种技术路线进行全景式评估与战略定位

🤖 3 方系统对比 📊 6 层架构拆解 🎯 3 种战略路径 📝 纯 HTML 交付

🏗️ 架构全景 🚨 风险研判 🔮 演进预测 ✅ 行动清单

0执行摘要

🎯 三方核心共识

GLM-5（工程落地视角）

Official OpenClaw 提供 L2-L6 完整框架底座，Will's Custom 在此之上实现了生产级执行验证。Hermes 在 L1/L4 有技术亮点，但缺乏独立完整 Harness 的基础设施。

Qwen3.5（架构演进视角）

三者定位清晰：Hermes = 记忆神经，Official OpenClaw = 躯体框架，Will's Custom = 武装到牙齿的生产引擎。最可能的路径是模块组合，而非三者竞争。

DeepSeek（工程思辨视角）

「精致 L4」是技术幻觉。记忆层做得再好也掩盖不了 L2/L3/L5/L6 的不足。先把里子（工具、编排、约束）做好，再考虑面子（记忆精度）升级。

L1/L4 胜出

Hermes

记忆检索精度与上下文管理专项优化

L2-L6 胜出

Official OpenClaw

完整框架底座，工具生态与插件体系

生产执行胜出

Will's Custom

25+ Skills、蜂群引擎、四实例架构的完整验证

💡 一句话战略结论：Official OpenClaw 是框架基座，Will's Custom 是生产验证态，Hermes 是可借鉴的记忆组件。优先发展 Will's Custom（L2-L6 生产闭环），选择性吸收 Hermes 的 L1/L4 技术思路。

1Harness Engineering 六层架构全景对比

Harness Engineering 将 Agent 系统抽象为六个层级（L1-L6），从上下文信息边界到底层约束校验与失败恢复。以下三列对比展示了 Hermes、Official OpenClaw、Will's Custom 的结构性差异与各自优势区间。

Hermes

无明确设计。作为记忆层子系统，安全约束依赖上层 Harness。

N/A

Official OpenClaw

基础行为约束框架，三条红线设计，无 PUA-Lite 级别的生产级闭环。

基础

Will's Custom

PUA-Lite 三条红线 + 五步方法论 + 失败升级 + circuit breaker 熔断。约束层是生产级底线。

★★★★★

Hermes

无系统级观测设计。记忆检索可作为观测数据源，但不提供独立的监控机制。

N/A

Official OpenClaw

基础日志和 session 管理，无多实例互监机制。

基础

Will's Custom

watchdog-pair 双实例互监 + heartbeat 定时检查 + 蜂群独立 Review Agent。观测体系已生产验证。

★★★★★

Hermes

主场。 1024维向量 + BM25+rerank 混合检索 + MiniMax/Kimi embeddings 双兜底。记忆精度最高。

★★★★★

Official OpenClaw

memory-lancedb v2.0、daily notes、procedures。实现偏文件化，无 rerank。

★★★

Will's Custom

在官方基础上扩展 shared-knowledge + 四实例同步。但检索架构与官方相同，无 BM25+rerank。

★★★

Hermes

无执行编排设计。relay 层为请求转发，无 subagent/cron/workflow 能力。

N/A

Official OpenClaw

提供 subagent 机制、基础 cron 调度、ClawFlow 工作流框架。

★★★★

Will's Custom

Swarm Engine 蜂群引擎（多 agent 并行 + 交叉验证）+ auto-pipeline/auto-dev-loop 完整自动化闭环。生产验证级。

★★★★★

Hermes

无工具生态。侧重点是 memory relay，不暴露工具调用接口。

N/A

Official OpenClaw

强项。 MCP、browser automation（playwright/CDP/Lightpanda）、Peekaboo、多 channel 插件（Telegram/Discord/Lark）。

★★★★★

Will's Custom

在官方工具生态上构建了 25+ 自定义 Skills，涵盖猫舍运营、品牌传播、医疗咨询等垂直领域。工具落地能力最强。

★★★★★

Hermes

强项。 专为上下文和记忆管理设计，BM25 rerank + 1024维向量，检索召回质量最高。

★★★★★

Official OpenClaw

Skills 渐进式披露、System Prompt 分层、LCM 上下文压缩。框架成熟，但检索精度有优化空间。

★★★★

Will's Custom

在官方基础上扩展了 AGENTS.md + SOUL.md + IDENTITY.md + USER.md 多层人格注入，个性化程度最高。

★★★★

强项区间

L1 Context / L4 Memory

BM25+rerank 混合检索，记忆精度业界领先

框架优势

L2 Tools / L3 Orchestration

MCP + browser automation + channel 插件完整生态

生产验证

L5 Observability / L6 Constraints

watchdog-pair + PUA-Lite + 25+ Skills 全链路闭环

各层详细分析

L1 Context 信息边界 — 谁的上下文管理更强？

Official OpenClaw 在 L1 层面已经相当成熟，通过 Skills 渐进式披露机制、System Prompt 分层设计和 LCM 上下文压缩技术，覆盖了主流 Harness 场景。Will's Custom 在此基础上叠加了 AGENTS.md + SOUL.md + IDENTITY.md + USER.md 四层人格注入，使 Agent 的上下文更具个性化特征。

然而，Hermes 的优势在于其专门为上下文管理设计的检索增强体系：1024维向量 + BM25+rerank 混合检索，在「从历史记忆中召回相关信息」这一具体任务上，理论精度高于 Official OpenClaw 的纯向量检索方案。

关键洞察：Official OpenClaw 的 L1 是「框架级全面覆盖」，Hermes 的 L1 是「专项精度极致化」，Will's Custom 的 L1 是「人格化深度定制」。三者层次不同，不可直接比较。

L2 工具系统 — Official OpenClaw 的绝对主场

这是 Official OpenClaw 与 Hermes 差距最大的一层，也是 Will's Custom 继承并扩展的核心领域：

MCP（Model Context Protocol）：Anthropic 提出的标准化工具调用接口
Browser Automation：playwright-cli、CDP、Lightpanda 三轨道方案
Peekaboo：macOS UI 自动化
Channel 插件：Telegram、Discord、Lark（飞书）等多平台集成

Will's Custom 在此基础上构建了 25+ 垂直领域 Skills，使工具系统从「通用能力」升级为「业务赋能」。Hermes 目前没有任何工具生态设计，若要独立发展为完整 Harness，L2 需要从零建设。

结论：L2 工具系统 = Official OpenClaw 框架优势 + Will's Custom 生产落地。Hermes 不在此层竞争。

L3 执行编排 — Will's Custom 的护城河

Official OpenClaw 提供了 subagent 机制、基础 cron 调度和 ClawFlow 工作流引擎。Will's Custom 在此基础上实现了：

Swarm Engine 蜂群引擎：多 agent 并行执行 + 交叉验证 + 独立审查
Auto-pipeline：非代码批量任务自动化（文案/素材/整理）
Auto-dev-loop：代码功能开发全自动循环引擎
ClawFlow：复杂任务的工作流编排

Hermes 没有任何执行编排设计，relay 层仅做请求转发，无法支撑多步骤复杂任务的自动化执行。

结论：L3 = Official OpenClaw 框架底座 + Will's Custom 蜂群引擎生产验证。Hermes 不在此层竞争。

L4 记忆与状态 — Hermes 的主场

这是 Hermes 的设计原点，也是其最具技术差异化的一层：

1024维向量：更高的语义表达能力
MiniMax / Kimi embeddings 双兜底：模型可用性保障
BM25 + rerank 混合检索：关键词召回 + 语义重排序，稳定性优于纯向量检索
Session-level + User-level state：结构化记忆管理

Official OpenClaw 的记忆体系包括 memory-lancedb v2.0、daily notes、procedures、shared-knowledge，但实现偏文件化，检索架构相对简单。Will's Custom 在此基础上增加了四实例同步，但检索机制与官方相同。

结论：L4 记忆精度 = Hermes 明显领先，Official OpenClaw 和 Will's Custom 的检索架构应借鉴 Hermes 的 BM25+rerank 设计。

L5 评估与观测 — Will's Custom 的生产级优势

Official OpenClaw 提供基础的 session 管理与日志记录，但缺乏多实例互监机制。Will's Custom 在此基础上构建了完整的生产级观测体系：

Heartbeat：各实例定时健康检查
Watchdog-pair：ユキ/ナツ/ハル/アキ四实例互相监控，宕机自动重启
PUA-Lite 闭环验证：行为结果必须通过验证命令确认
蜂群 Review Agent：多模型交叉验证的独立审查机制

Hermes 作为基础设施层，不提供独立的观测能力。

结论：L5 观测 = Official OpenClaw 基础框架 + Will's Custom watchdog-pair 生产验证。Hermes 不在此层竞争。

L6 约束/校验/失败恢复 — Will's Custom 的行为底线

Official OpenClaw 提供了基础的行为约束设计，但缺乏生产级的闭环验证机制。Will's Custom 的 PUA-Lite 框架则提供了系统级的安全保障：

三条红线：闭环验证、事实驱动、禁止原地打转
五步方法论：主动执行、卡住升级、子 agent 验证等
Circuit breaker：连续失败后的自动熔断保护
执行记录 + 截图认证：行为可审计、可回溯

Hermes/Honcho 的定位是基础设施层，安全约束需要上层 Harness 来保障。

结论：L6 约束 = Official OpenClaw 基础框架 + Will's Custom PUA-Lite 生产级闭环。Hermes 不在此层竞争。

📌 基础结论

三者在 Harness Engineering 六层模型中占据不同生态位：Hermes 专精 L1/L4，Official OpenClaw 提供 L1-L6 框架底座，Will's Custom 在底座上实现 L2-L6 生产级执行验证。不是竞争，是分层协作。

2三方模型观点区

GLM-5

工程落地 / 成本 / 风险视角

Official OpenClaw 提供完整框架，Will's Custom 在其上实现了生产级验证；Hermes 的 L1/L4 精度优势在 L2/L3/L5/L6 的缺失面前不值一提。

工程成本：Will's Custom 的 25+ Skills、四实例架构、watchdog-pair 监控体系已经历真实生产验证。Hermes 若要达到同等水平，L2-L6 需要从零重建。
风险评估：🔴 Hermes 替代 Will's Custom — 业务停摆 2-4 周，25+ Skills 归零，蜂群引擎报废，四实例架构断裂。
最优路径：以 Official OpenClaw 为框架基座，Will's Custom 为生产执行态，借鉴 Hermes 的 L4 检索思路，不替换现有架构。

GLM-5 结论：Official OpenClaw 是躯体骨架，Will's Custom 是武装完毕的生产引擎，Hermes 是可借鉴的记忆模块。三者组合，不是三选一。

Qwen3.5

技术架构 / 演进趋势视角

三者定位清晰：Hermes = 记忆神经，Official OpenClaw = 躯体骨架，Will's Custom = 武装引擎。最可能的路径是模块组合，而非三者竞争。

Hermes 的结构性瓶颈（为何不能独立替代）

L2~L6 空洞化：没有工具调用、协作网络、约束机制、观测体系
多实例协作缺失：无法融入ユキ/ナツ/ハル/アキ四实例拓扑
安全约束不完整：无 PUA-Lite 级别的行为验证与熔断

Official OpenClaw 应向 Hermes 学习的 2 点

BM25+rerank 混合检索：比单纯向量检索更稳定，应引入 L4 层
Provider Relay 的轻量化适配：统一接口、解耦底层模型细节

Qwen3.5 结论：Official OpenClaw + Will's Custom 是主架构，Hermes 的 L4 检索技术值得借鉴但不必全盘整合。三者协同而非竞争。

DeepSeek Thinking

Harness 工程深层思辨视角

"精致 L4" 是一种技术幻觉。记忆层做得精致最危险之处在于，它会让人产生"系统很成熟"的错觉。

DeepSeek 提出了一个常被忽视的洞察：Agent 的失败模式几乎从不来自模型不够聪明，而总是来自 Harness 的某个环节断裂。 Hermes 在 L1/L4 的极致投入，可能会掩盖 L2/L3/L5/L6 的实际粗糙。

同时，DeepSeek 观察到 OpenAI 和 Anthropic 在记忆上的权重都很克制。以 Claude Code 为例，它采用「极其克制的记忆策略」——仅在 .claude 项目文件中写入结构化记忆，而不构建通用会话间记忆系统。这反映了一种工程哲学：

记忆应该是确定性的、文件化的、人类可审计的。

OpenAI 和 Anthropic 将绝大部分工程资源花在工具调用、错误恢复、安全沙箱上，而非记忆层。这与当前市场过度追捧「长记忆」的风气形成鲜明对比。

记忆是 Agent 的面子，工具和错误处理才是里子。先把里子做好（L2-L6），再考虑面子升级（L4）。Will's Custom 的 PUA-Lite + watchdog-pair 才是正确的投入方向。

— DeepSeek Thinking

3核心争议与思辨

子议题一：L4 精致化是否是陷阱？

DeepSeek 的核心论点可以归纳为：在一个不完整的 Harness 中，过度投资于 L4 记忆层会产生技术幻觉。

Hermes 在 L1/L4 的极致追求有其合理性——BM25+rerank 混合检索确实比纯向量检索更稳定。但问题在于，L4 再精致也无法弥补 L2（工具）、L3（编排）、L5（观测）、L6（约束）的缺失。

启示：Official OpenClaw 和 Will's Custom 应借鉴 Hermes 的 BM25+rerank 检索思路，但无需全盘整合。优先补强 L2/L5/L6，再考虑 L4 极致化。

子议题二：记忆在顶级 Harness 里占多大权重？

DeepSeek 对 Claude Code 的观察提供了一个重要的行业参照。Claude Code 的记忆策略极其克制：

没有通用会话间记忆系统
仅在项目文件中写入结构化记忆（.claude 目录）
记忆是确定性的、文件化的、人类可审计的

Official OpenClaw 的 LCM 上下文压缩策略与此哲学一致。Will's Custom 在此基础上扩展了 daily notes + shared-knowledge，但同样遵循文件化、可审计的原则。Hermes 的 1024维向量检索虽然精度更高，但引入了黑盒性——检索结果不可直接审计。

启示：L4 的价值不在于检索精度有多高，而在于记忆是否可靠、可审计。Will's Custom 的文件化记忆体系（daily notes + procedures + shared-knowledge）是更符合工程哲学的选择。

子议题三：三者应该如何定位？

系统	正确角色	不应做的事
Hermes	L1/L4 技术供应商：提供 BM25+rerank 检索方案	独立构建完整 Harness，替代现有生产系统
Official OpenClaw	框架底座：提供 L1-L6 完整工具链和插件生态	被遗忘在生产环境之外，作为纯开源演示存在
Will's Custom	生产执行引擎：在框架底座上实现业务闭环	停止迭代，或在核心业务上冒险替换为未验证系统

三者定位清晰：Hermes 提供 L1/L4 技术思路，Official OpenClaw 提供框架底座，Will's Custom 实现生产级执行。互补而非竞争。

4企业实战判断

三系统工程成本对比

维度	Hermes	Official OpenClaw	Will's Custom
Skills 生态	无 ✗	基础框架 Skills △	25+ 已验证 ✓
多实例架构	不支持 ✗	单实例为主 △	四实例生产运行 ✓
浏览器自动化	无 ✗	三轨道方案 ✓	三轨道已验证 ✓
监控/熔断	无 ✗	基础日志 △	watchdog + PUA-Lite ✓
记忆检索精度	BM25+rerank ✓	向量检索 △	向量检索（同官方） △
执行编排	无 ✗	subagent + cron ✓	蜂群引擎 + auto-loop ✓
生产验证	未验证 ✗	框架级验证 △	完整生产验证 ✓

三场景风险热力图

Hermes 替代 Will's Custom

🔴 极高

Official OpenClaw 独立使用

🟢 低

Will's Custom 继续迭代

🟢 最低

借鉴 Hermes L4 检索

🟡 中

三场景 ROI 分级矩阵

🟢 A 级：继续发展 Will's Custom

投入最低（已有基座），产出最稳定。25+ Skills 和四实例架构是竞争壁垒，不应替换。

🟡 B 级：Official OpenClaw 框架升级

跟进官方框架更新，完善 MCP 生态和 L2 工具层。保持框架与生产系统的同步。

🔴 C 级：Hermes 替代任何一方

投入极高，风险极高，回报不确定。L2-L6 全部需要从零重建，不现实。

5三层系统耦合分析

DeepSeek 对三层系统的替换与整合进行了深入分析。以下是每个系统对其他层级的影响评估：

Hermes→L1兼容

Hermes→L2硬耦合

Custom→L3增强

Custom→L5增强

Custom→L6增强

层级	Hermes 影响	Official OpenClaw 影响	Will's Custom 影响
L1	正向增强	框架基座	人格化 Context 注入（四层文档），个性化程度最高
L2	无贡献	框架底座	25+ 自定义 Skills，垂直领域工具落地能力最强
L3	无贡献	subagent/cron/ClawFlow	Swarm Engine + auto-pipeline + auto-dev-loop，生产级执行
L4	技术思路贡献	需借鉴 Hermes	四实例同步 + 文件化记忆，与官方同级别，检索精度待升级
L5	无贡献	基础日志	watchdog-pair + heartbeat + 蜂群 Review Agent，生产级观测
L6	无贡献	基础约束	PUA-Lite 三条红线 + 五步方法论 + circuit breaker，生产级闭环

💡 核心结论

L2（工具）、L3（编排）、L5（观测）、L6（约束）是 Will's Custom 的绝对主场。Hermes 只在 L1/L4 有技术贡献，但这些贡献是「锦上添花」而非「不可或缺」。Official OpenClaw 是框架底座，Will's Custom 是底座上的生产引擎。

6未来演进预测

Hermes 的 6-12 个月可能路径

路径 A：发展为独立完整 Harness（概率 15%）
投入产出比极低。L2-L6 全套能力需要大量工程资源，而 Official OpenClaw 已经提供了成熟框架。
路径 B：作为 L4 检索技术供应商（概率 60%）
最符合 Hermes 技术现状。专注做好 BM25+rerank 检索方案，通过插件接口或 MCP 协议为 Official OpenClaw/Will's Custom 提供记忆检索增强。
路径 C：被收购或并入更大平台（概率 25%）
若独立发展困难，核心技术可能被某个更大的 Agent 平台收购或整合。

Official OpenClaw 的 6-12 个月可能路径

短期：完善 L2 工具生态和 L6 约束框架
继续完善 MCP 生态、浏览器自动化能力。这是框架层面最重要的工作。
中期：引入 BM25+rerank 混合检索到 L4 层
借鉴 Hermes 的技术思路，但保持技术自主。在官方记忆中引入混合检索，提升召回稳定性。
长期：插件化 L4 接口
当 L4 层足够抽象化和插件化时，Hermes 或其他记忆系统可以作为可选后端被无缝接入。

Will's Custom 的 6-12 个月可能路径

持续深化 L2-L6 生产闭环
继续扩大 25+ Skills 覆盖范围，深化蜂群引擎场景，完善 PUA-Lite 约束框架。这是核心竞争壁垒。
L4 检索升级
在现有文件化记忆体系基础上，引入 BM25+rerank 混合检索，提升记忆召回精度。不依赖 Hermes 整合，保持技术自主。
四实例架构扩展
根据业务需求扩展实例数量或功能分工，保持四实例互监拓扑的健康运行。

2026-2027 行业趋势判断

三方模型的共识趋势预测：

一统型 Harness（Official OpenClaw）会主导早期市场；组合型（专用记忆层 + 专用工具层 + 专用编排层）会在成熟生态逐步显现优势。

这意味着：

2026 年：Official OpenClaw 框架 + Will's Custom 生产部署是主流选择
2027 年：组合型架构（Hermes 的 L4 检索 + Official OpenClaw L2/L3/L5/L6 框架 + Will's Custom L2-L6 生产验证）会成为高阶选项

Will 团队当前的架构选择（Official OpenClaw 底座 + Will's Custom 生产引擎）正好符合 2026 年市场主流策略，同时为 2027 年的组合型演进预留了空间。

7战略建议行动清单

场景 A

Hermes 单独使用

仅适合：边缘轻量信息检索场景。不可用于核心业务。

场景 B

Official OpenClaw 独立

适合：快速原型验证、开源社区贡献。生产业务需额外加固。

场景 C

Will's Custom 生产

当前最优解。继续迭代，扩大 Skills 覆盖，深化蜂群场景。

保持 Will's Custom 作为核心生产 Harness

25+ Skills、四实例架构、watchdog-pair + PUA-Lite 是核心竞争壁垒，不应替换为未验证系统。维持现状是最优策略。

适用场景：C（Will's Custom） ROI: 🟢 A级

跟进 Official OpenClaw 框架更新

保持框架与生产系统的同步。跟进 MCP 生态完善、L2 工具层稳定性和 L6 约束框架升级。

适用场景：B（Official OpenClaw） ROI: 🟢 A级

在 Will's Custom 现有架构中研究 BM25+rerank 升级方案

借鉴 Hermes 的 L4 检索思路，在不引入外部依赖的情况下提升记忆召回精度。保持技术自主，不做 Hermes 深度整合。

适用场景：C（Will's Custom） ROI: 🟡 B级

在边缘场景中探索 Hermes 做轻量试点

选择一个对记忆检索精度敏感、但业务影响小的场景（如某个信息查询 Agent），单独接入 Hermes 验证其实际效果。风险可控。

适用场景：A（Hermes） ROI: 🟡 B级风险: 🟡 中低

持续深化 L2 Skills 生态和 L3 蜂群引擎场景

继续扩大 25+ Skills 覆盖范围，深化 Swarm Engine 在复杂任务中的应用，完善 auto-pipeline / auto-dev-loop 自动化闭环。这是核心竞争壁垒的持续加固。

适用场景：C（Will's Custom） ROI: 🟢 A级

设计 Official OpenClaw 的「插件化 L4 接口」技术方案

为未来可能的组合型整合做准备。当 L4 层足够抽象化时，Hermes 或其他记忆系统可以作为可选后端被接入。

适用场景：B（Official OpenClaw） ROI: 🟡 B级

持续追踪 Hermes/Honcho 的 L2-L6 演进动态

如果 Hermes 开始向完整 Harness 方向发展，重新评估竞争关系。如果坚持走「记忆组件」路线，未来整合的可能性更大。

ROI: 🟢 A级风险: 🟢 极低

8术语注释

Harness Engineering

Agent 系统工程的六层模型（L1-L6），涵盖上下文、工具、编排、记忆、观测、约束六个维度。

Official OpenClaw

开源 Harness 框架（github.com/openclaw/openclaw），提供 L1-L6 完整框架底座，包括 MCP、browser automation、channel 插件等。

Will's Custom

基于官方框架的生产级部署，包含 25+ 自定义 Skills、蜂群引擎、PUA-Lite 约束框架、四实例架构（ユキ/ナツ/ハル/アキ）、watchdog-pair 监控。

Hermes

记忆层专用系统，Honcho 架构，1024维向量 + BM25+rerank 混合检索，专注 L1/L4 记忆管理精度的极致化。

BM25+rerank

一种混合检索技术。BM25 是经典关键词匹配算法，rerank 是使用神经网络对初筛结果进行二次排序的语义精排步骤。

PUA-Lite

Will's Custom 采用的行为驱动约束框架，包含三条红线（闭环验证、事实驱动、禁止原地打转）和五步方法论。

Swarm Engine

Will's Custom 的蜂群引擎，通过多 agent 并行执行、独立审查和评分机制，用低端模型数量换高端模型质量。

LCM

Lossless Context Management，OpenClaw 的上下文压缩技术，用于在不丢失关键信息的前提下控制长对话的上下文长度。

MCP

Model Context Protocol，由 Anthropic 提出的开放协议，用于标准化 LLM 与外部工具/数据源之间的交互接口。

watchdog-pair

Will's Custom 的双实例互监系统，四实例（ユキ/ナツ/ハル/アキ）互相监控健康状态，宕机自动重启、告警通知、熔断保护。

三强鼎立：Agent Harness技术全景对比

0执行摘要

🎯 三方核心共识

Hermes

Official OpenClaw

Will's Custom

1Harness Engineering 六层架构全景对比

Hermes

Official OpenClaw

Will's Custom

Hermes

Official OpenClaw

Will's Custom

Hermes

Official OpenClaw

Will's Custom

Hermes

Official OpenClaw

Will's Custom

Hermes

Official OpenClaw

Will's Custom

Hermes

Official OpenClaw

Will's Custom

L1 Context / L4 Memory

L2 Tools / L3 Orchestration

L5 Observability / L6 Constraints

各层详细分析

📌 基础结论

2三方模型观点区

GLM-5

Qwen3.5

Hermes 的结构性瓶颈（为何不能独立替代）

Official OpenClaw 应向 Hermes 学习的 2 点

DeepSeek Thinking

3核心争议与思辨

子议题一：L4 精致化是否是陷阱？

子议题二：记忆在顶级 Harness 里占多大权重？

子议题三：三者应该如何定位？

4企业实战判断

三系统工程成本对比

三场景风险热力图

三场景 ROI 分级矩阵

🟢 A 级：继续发展 Will's Custom

🟡 B 级：Official OpenClaw 框架升级

🔴 C 级：Hermes 替代任何一方

5三层系统耦合分析

💡 核心结论

6未来演进预测

Hermes 的 6-12 个月可能路径

Official OpenClaw 的 6-12 个月可能路径

Will's Custom 的 6-12 个月可能路径

2026-2027 行业趋势判断

7战略建议行动清单

Hermes 单独使用

Official OpenClaw 独立

Will's Custom 生产

保持 Will's Custom 作为核心生产 Harness

跟进 Official OpenClaw 框架更新

在 Will's Custom 现有架构中研究 BM25+rerank 升级方案

在边缘场景中探索 Hermes 做轻量试点

持续深化 L2 Skills 生态和 L3 蜂群引擎场景

设计 Official OpenClaw 的「插件化 L4 接口」技术方案

持续追踪 Hermes/Honcho 的 L2-L6 演进动态

8术语注释

三强鼎立：Agent Harness
技术全景对比