2026年3月第四周 GitHub 热点：5个项目深度学习报告 | 双AI视角解读

🎙

播客导读

点击播放本文语音版

AI学习原创

2026年3月第四周 GitHub 热点：5个项目深度学习报告 | 双AI视角解读

Will2026年3月28日约 8 分钟阅读

本期导读

本期 GitHub 热点聚焦 AI 工具链的工程化与系统化——从 AI 编程助手的 harness 设计，到离线 AI 基础设施，从浏览器自动化的范式翻转，到多智能体教育产品。这 5 个项目共同印证了一个趋势：Agent 赛道正在从"单次回答"进入"工程系统化 + 场景产品化"阶段。

项目	Stars	核心价值	对 Will 的优先级
everything-claude-code	113k+	AI 编程的"操作系统层"	⭐⭐⭐⭐⭐ 立即拆解
project-nomad	18k+	离线 AI + 本地 RAG 基础设施	⭐⭐⭐⭐⭐ 长期布局
learn-claude-code	41k+	Agent harness 架构教材	⭐⭐⭐⭐ 内部培训
page-agent	14k+	Inside-Out 浏览器自动化	⭐⭐⭐⭐ 轻量实验
OpenMAIC	12k+	多智能体教育产品化	⭐⭐⭐ 场景探索

1. everything-claude-code — 让 AI 编程助手从「能用」进化到「好用」

**GitHub**: https://github.com/affaan-m/everything-claude-code **核心数据**: 50K+ stars | 6K+ forks | Anthropic Hackathon 冠军 | 28 个专业 Agent | 125 项 Skill

项目背景

过去一年，Claude Code、Cursor、OpenCode、Codex 等 AI 编程工具已经深度融入无数工程师的日常工作。但一个尖锐的现实逐渐浮出水面：模型越来越强，但用好它的门槛没有降低——甚至因为能力边界模糊，反而更容易"用歪"。

这就是 everything-claude-code（ECC）出现的背景。它不是又一个"精选 prompt 集合"，而是一套完整的 Agent Harness 性能优化系统：把技能（Skills）、记忆（Memory）、Hook、持续学习（Instinct）、安全扫描（AgentShield）全部结构化组织起来。

技术架构详解

核心哲学：经验即代码——把专家经验结构化为可执行代码。

1. Skills 系统（四层抽象）：

Agent → Skill → Command → Rule

Agent：专业子代理（planner / architect / code-reviewer 等）
Skill：工作流定义 + 领域知识（如 tdd-workflow、security-review）
Command：具体可执行命令（如 /plan、/quality-gate）
Rule：质量门禁规则，按语言分目录

2. Instinct：持续学习系统

会话中识别有效模式
      ↓
置信度评分（confidence score）
      ↓
设置 TTL（生存时间）
      ↓
聚类为正式 Skill 或合并入现有 Skill

3. AgentShield：安全扫描
集成 1282 条测试、102 条安全规则。

深度视角

🤖 **GPT-5.4 架构师视角**

ECC 解决了 AI 编程工具的 harness 碎片化问题。最有借鉴意义的设计：

Manifest-driven 安装架构：组件可选择安装，state store 追踪已装内容
Observer Loop 防护：5 层 guard 防止 Agent 在循环中卡死
多语言并行演进：common 规则库 + 语言特定规则库

可移植性评分：9/10。

🎯 **Opus 战略家视角**

三个最值得深思的设计决策：

经验的可版本控制化——AI 工作流可以像代码一样被审计和演进
DRY Adapter 模式——AGENTS.md 作为跨平台通用契约
Instinct 的自动化学——AI 系统自演进的新方向

对你工作流的实际价值

OpenClaw 工具链：

Skill frontmatter 标准化
跨实例经验同步（借鉴 Instinct 机制）
Hook 系统移植

猫舍 AI 化：

/multi-workflow 模式设计健康监控流水线
article-writing Skill 自动生成多平台内容

AI 创业：

四层抽象 → 多 AI 角色协作
997 条测试 → 质量保障体系

2. project-nomad — 当灾难降临时，你的AI不会断线

**GitHub**: https://github.com/Crosstalk-Solutions/project-nomad **核心数据**: 18,000+ Stars | 1,700+ Forks | 2天内活跃更新

项目背景

互联网的脆弱性从未被认真对待。直到你经历过一次断网。2024年，我们见证了无数次"基础设施幻觉"的破碎——云服务宕机、应用无法访问、AI助手集体哑火。

Project N.O.M.A.D.（Nomadic Offline Mobile Autonomous Device）正是针对这个根本性脆弱点的回应。这是一个自包含的离线生存计算平台，核心目标是：在断网、灾害、偏远地区或高隐私要求的环境下，依然保有知识获取、教育学习、AI对话和基础工具能力。

核心组件一览

能力	技术选型	具体实现
本地AI对话+RAG	Ollama + Qdrant	文档上传、语义搜索、Ollama 模型本地运行
离线知识库	Kiwix	离线 Wikipedia、医学参考、生存指南
教育平台	Kolibri	Khan Academy 课程、进度追踪
离线地图	ProtoMaps	可下载的区域地图，支持搜索和导航
数据工具	CyberChef	加密、编码、哈希、数据分析

安装方式

bash

curl -fsSL https://raw.githubusercontent.com/Crosstalk-Solutions/project-nomad/refs/heads/main/install/install_nomad.sh -o install_nomad.sh
sudo bash install_nomad.sh

深度视角

🤖 **GPT-5.4 架构师视角**

N.O.M.A.D. 的核心价值在于工具编排层的设计。Command Center 作为统一入口，将异构的工具通过 Docker 抽象为标准化服务单元。

Docker Compose 模板化：提供了可自定义的 management_compose.yaml
RAG 本地化：Ollama+Qdrant 是开源本地 RAG 的最佳实践
硬件评分体系：内置 Benchmark + 社区排行榜

🎯 **Opus 战略家视角**

N.O.M.A.D. 真正解决的，是一个数字时代的安全感问题。

三个宏观趋势的交汇：

隐私意识的觉醒
开源 AI 民主化
社区驱动的工具链

验证了一个重要观点：在 AI 时代，"编排"比"构建"更有价值。

对你工作流的实际价值

OpenClaw 工具链：

Ollama+Qdrant 本地 RAG 架构可直接移植
构建"本地知识库检索 Skill"

猫舍 AI 化：

日本灾害频发，可构建"猫舍应急知识包"
猫咪急救手册、常见疾病判断全部本地化存储

AI 创业：

"推荐硬件 + 一键部署 + 社区排行榜"三件套是产品化开源项目的成熟模板

3. learn-claude-code — 用 20 行代码拆解 Agent 本质

**GitHub**: https://github.com/shareAI-lab/learn-claude-code **核心数据**: 41k+ stars | 6.4k+ forks | 最新提交 11 天内

项目背景

2024–2025 年，"AI Agent" 成为最热门的词汇。整个行业陷入一种集体幻觉：只要把 LLM API 调用用流程图连起来，就叫"构建 Agent"。

这个项目直接打破幻觉。它的核心主张只有一句话：

**"The model is the agent. The code is the harness."**

意思是：Agent 是模型本身——是那个通过数十亿次梯度更新学会了感知、推理、行动的神经网络。而我们写的代码，从来都不是智能本身，只是智能所栖居的世界。

20 行代码证明

python

def agent_loop(messages):
    while True:
        response = client.messages.create(
            model=MODEL, system=SYSTEM,
            messages=messages, tools=TOOLS,
        )
        messages.append({"role": "assistant", "content": response.content})
        if response.stop_reason != "tool_use":
            return
        results = []
        for block in response.content:
            if block.type == "tool_use":
                output = TOOL_HANDLERS[block.name](**block.input)
                results.append({"type": "tool_result", "tool_use_id": block.id, "content": output})
        messages.append({"role": "user", "content": results})

12 个 Session 渐进复杂度

Session	机制	核心 motto
s01	最小 loop + Bash	"One tool + one loop = an agent"
s04	Subagent 隔离	"Each subtask gets a clean context"
s07	文件型任务依赖图	"Break goals into tasks, persist to disk"
s12	Worktree 并行隔离	"Each task works in its own directory"

深度视角

🤖 **GPT-5.4 架构师视角**

这个项目的技术价值不在于任何单一机制，而在于它证明了复杂度应该随需求渐进增加。

s04 的 subagent 隔离：解决 context 污染问题
s07 的任务依赖图持久化：文件型设计，对轻量级状态机极其友好
可移植性极高：12 个 session 的设计模式是领域无关的

🎯 **Opus 战略家视角**

最有战略眼光的设计决策是 s05 的知识注入方式：通过 `tool_result` 而非 system prompt 注入知识。

System prompt 注入是无差别广播，tool_result 注入是按需拉取。

对你工作流的实际价值

OpenClaw 工具链：

s04 的 subagent 隔离 → 蜂群 Worker clean context 边界
s07 的任务依赖图 → 蜂群状态机文件型持久化方案

猫舍 AI 化：

猫舍摄像头 + 传感器 = tools
猫咪品种知识、喂养 SOP = knowledge

AI 创业：

先确认产品里哪部分是 harness，哪部分是 intelligence

4. page-agent — 让 AI 直接住在网页里的新范式

**GitHub**: https://github.com/alibaba/page-agent **核心数据**: 14k+ Stars | MIT License | 阿里开源 | v1.6.2

项目背景

传统浏览器自动化工具（Playwright、Selenium、Puppeteer）都是"由外向内"——在页面外部启动一个进程，通过 CDP 协议远程控制浏览器。这种架构有三个根本性缺陷：

SPA 状态感知缺失：React/Vue 组件的虚拟 DOM 变化，外部进程无法直接感知
用户会话无法继承：登录态、Cookie、LocalStorage 都要手动维护同步
部署成本高：需要额外部署浏览器环境，跨平台兼容性差

page-agent 换了一种思路：让 agent 住进网页里。它是一个纯前端 JavaScript 库，通过 CDN 一行引入或 npm 一行安装，agent 代码就运行在页面的上下文中。

核心设计

CDN 引入（最快体验）：

html

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.6.2/dist/iife/page-agent.demo.js" crossorigin="true"></script>

文本化 DOM 操作——这是 page-agent 最核心的设计决策：不截图，不走多模态模型。每一步操作前，库会把当前页面的 DOM 结构序列化成文本描述：

[Button] "登录" (id: login-btn, class: primary-btn)
[Input] 用户名 (type: text, placeholder: 请输入手机号)
[Input] 密码 (type: password)

三层扩展架构

层级	形态	能力边界
核心库	`page-agent` npm 包	单页面内自然语言驱动
Chrome Extension	浏览器扩展	跨 Tab、多页面协作
MCP Server	模型上下文协议服务	外部 agent 控制浏览器

深度视角

🤖 **GPT-5.4 架构师视角**

从工程实现角度看，page-agent 的文本化 DOM 表示是整个系统最关键的技术决策。相比截图+多模态模型，文本化方案将成本降低了至少 10 倍，延迟也大幅改善。

🎯 **Opus 战略家视角**

page-agent 真正解决的问题是**"浏览器自动化的 Inside-Out 翻转"**。传统路线是"agent 控制浏览器"，page-agent 的思路是"agent 住在浏览器里"。

这个翻转意义重大——它意味着 AI 交互层可以原生嵌入任何网页，不需要对方配合做任何后端改造。

对你工作流的实际价值

OpenClaw 工具链：

OpenClaw 的 Chrome Relay 是"外部控制"模式，可借鉴文本化 DOM 表示降低对多模态模型的依赖

猫舍 AI 化：

福楽キャッテリー官网可嵌入 page-agent，访客用自然语言查询猫咪信息
Notion 后台管理页面加 page-agent，用自然语言查询客户记录

AI 创业：

快速给产品加 AI 交互层的最佳选择之一

5. OpenMAIC — 用多智能体把任何主题变成「可演出的沉浸式课堂」

**GitHub**: https://github.com/THU-MAIC/OpenMAIC **核心数据**: 1.5k+ stars | v0.1.0 发布于 2026-03-26 | 清华团队

项目背景

MOOC 解决了知识的「可获取性」——任何人随时随地都能找到课程。但学习这件事，从来不只是「看到」就能完成。线下的教室里，教师的眼神交流、同学的追问质疑、随时在白板上画图的临场感，这些构成「沉浸式学习体验」的元素，MOOC 一个都没复刻。

OpenMAIC（Open Multi-Agent Interactive Classroom）正是冲着这个缺口来的。它的目标不是生成一张幻灯片或一段文字，而是用多个 AI Agent 模拟完整课堂：AI 教师讲课、AI 同学讨论、白板实时画图、互动测验打分、模拟实验。

技术架构

前端：Next.js 14 + React 19 + TypeScript + Tailwind
多智能体编排：LangGraph（状态机驱动）
状态管理：Zustand
支持模型：OpenAI / Anthropic / Google Gemini / DeepSeek / Grok

两阶段生成管道

用户输入（主题或文档）
    │
    ▼
Stage 1: Outline Agent
    │ 生成结构化课程大纲
    │ ✅ 大纲可人工审核、修改
    ▼
Stage 2: Scenario Agents（并行）
    │ 每个大纲节点 → 一个场景
    │ 幻灯片 / 测验 / 模拟实验 / PBL
    ▼
完整课堂

28+ 种 Action 系统

Action 类型	说明
`speech`	TTS 语音朗读
`whiteboard-draw`	SVG 白板绘图
`whiteboard-chart`	图表绘制
`spotlight`	聚光灯效果
`laser-pointer`	激光笔动画
`quiz-grade`	实时评分反馈

OpenClaw 集成

OpenMAIC 已发布 OpenClaw Skill（skills/openmaic/），支持从飞书、Slack、Discord、Telegram 等 20+ 消息平台直接生成课堂。

深度视角

🤖 **GPT-5.4 架构师视角**

从工程角度，OpenMAIC 最有价值的不是任何一个具体功能，而是两阶段管道 × LangGraph 状态机 × Action 系统的三层组合。

两阶段管道把「生成什么」和「怎么呈现」解耦，LangGraph 状态机把「谁来说话」和「说什么」解耦，Action 系统把「内容」和「表现」解耦。

🎯 **Opus 战略家视角**

OpenMAIC 解决的不只是「上课」问题，而是知识传播的体验经济升级。MOOC 让知识免费，OpenMAIC 让知识有温度。

最值得关注的是它对社会化学习（Social Learning）的复刻——AI 同学不是陪衬，是核心体验。

对你工作流的实际价值

OpenClaw 工具链：

OpenMAIC 与 OpenClaw 的集成已产品化。对ナツ说「帮我出一套 OpenClaw 新功能培训教材」→ 生成完整课堂 → 发链接

猫舍 AI 化：

客户教育：准家长想了解サイベリアン的喂养知识？输入关键词生成互动课程
员工 SOP 培训：新员工学习猫咪健康观察、急救流程，用 Quiz 模式边学边测

AI 创业：

输入文档生成课程 → 自动导出 PPTX → 分发给客户，链路极短

📚 综合学习总结

跨项目的核心教训

1. Agent 的本质是模型，代码只是 harness

learn-claude-code 用 20 行代码证明：Agent loop 本身极简，真正的复杂度来自 harness 层（工具、知识、记忆、权限）。这五个项目都在用不同方式完善 harness。

2. 从"使用 AI"到"工程化 AI 使用"

这 5 个项目共同说明，社区已经走过了"AI 能做什么"的阶段，进入了**"如何系统化、可复现、可演进地使用 AI"**的阶段。

3. 编排 > 重写

project-nomad 和 everything-claude-code 都采用了"编排而非重写"的哲学。在 AI 时代，把最好的轮子用正确的方式组装起来，比重新造轮子更有价值。

4. 多 Agent 的价值在于角色差异

OpenMAIC 的 AI 教师和 AI 同学不是同一个 Agent 复制多份，而是有明确分工。设计多 Agent 系统时，先定义角色边界，再设计协作协议。

5. 离线能力是差异化方向

当所有工具都在拼云端性能时，离线+隐私的组合正在打开一个被低估的市场。日本灾害文化 + 隐私意识，让这个方向在本地市场尤其有潜力。

对 Will 的立即行动建议

优先级	行动	预期收益
P0	研究 learn-claude-code 的 s04/s07/s12	蜂群 v6.1 状态机设计参考
P0	借鉴 ECC 的 Instinct 机制	四实例跨经验自动同步
P1	评估 page-agent 文本化 DOM 方案	浏览器自动化成本降低
P1	验证 Ollama+Qdrant 本地 RAG	客户数据隐私保护
P2	跟踪 OpenMAIC 社区发展	多 Agent 编排模式验证

报告完成 | 分析基于 2026-03-28 公开信息 | GPT-5.4 架构师 × Opus 战略家双视角解读

加载中...

发表评论

0/1000

🎙

播客导读

点击播放本文语音版

AI学习原创

2026年3月第四周 GitHub 热点：5个项目深度学习报告 | 双AI视角解读

Will2026年3月28日约 8 分钟阅读

本期导读

项目	Stars	核心价值	对 Will 的优先级
everything-claude-code	113k+	AI 编程的"操作系统层"	⭐⭐⭐⭐⭐ 立即拆解
project-nomad	18k+	离线 AI + 本地 RAG 基础设施	⭐⭐⭐⭐⭐ 长期布局
learn-claude-code	41k+	Agent harness 架构教材	⭐⭐⭐⭐ 内部培训
page-agent	14k+	Inside-Out 浏览器自动化	⭐⭐⭐⭐ 轻量实验
OpenMAIC	12k+	多智能体教育产品化	⭐⭐⭐ 场景探索

1. everything-claude-code — 让 AI 编程助手从「能用」进化到「好用」

**GitHub**: https://github.com/affaan-m/everything-claude-code **核心数据**: 50K+ stars | 6K+ forks | Anthropic Hackathon 冠军 | 28 个专业 Agent | 125 项 Skill

项目背景

技术架构详解

核心哲学：经验即代码——把专家经验结构化为可执行代码。

1. Skills 系统（四层抽象）：

Agent → Skill → Command → Rule

Agent：专业子代理（planner / architect / code-reviewer 等）
Skill：工作流定义 + 领域知识（如 tdd-workflow、security-review）
Command：具体可执行命令（如 /plan、/quality-gate）
Rule：质量门禁规则，按语言分目录

2. Instinct：持续学习系统

会话中识别有效模式
      ↓
置信度评分（confidence score）
      ↓
设置 TTL（生存时间）
      ↓
聚类为正式 Skill 或合并入现有 Skill

3. AgentShield：安全扫描
集成 1282 条测试、102 条安全规则。

深度视角

🤖 **GPT-5.4 架构师视角**

ECC 解决了 AI 编程工具的 harness 碎片化问题。最有借鉴意义的设计：

Manifest-driven 安装架构：组件可选择安装，state store 追踪已装内容
Observer Loop 防护：5 层 guard 防止 Agent 在循环中卡死
多语言并行演进：common 规则库 + 语言特定规则库

可移植性评分：9/10。

🎯 **Opus 战略家视角**

三个最值得深思的设计决策：

经验的可版本控制化——AI 工作流可以像代码一样被审计和演进
DRY Adapter 模式——AGENTS.md 作为跨平台通用契约
Instinct 的自动化学——AI 系统自演进的新方向

对你工作流的实际价值

OpenClaw 工具链：

Skill frontmatter 标准化
跨实例经验同步（借鉴 Instinct 机制）
Hook 系统移植

猫舍 AI 化：

/multi-workflow 模式设计健康监控流水线
article-writing Skill 自动生成多平台内容

AI 创业：

四层抽象 → 多 AI 角色协作
997 条测试 → 质量保障体系

2. project-nomad — 当灾难降临时，你的AI不会断线

**GitHub**: https://github.com/Crosstalk-Solutions/project-nomad **核心数据**: 18,000+ Stars | 1,700+ Forks | 2天内活跃更新

项目背景

核心组件一览

能力	技术选型	具体实现
本地AI对话+RAG	Ollama + Qdrant	文档上传、语义搜索、Ollama 模型本地运行
离线知识库	Kiwix	离线 Wikipedia、医学参考、生存指南
教育平台	Kolibri	Khan Academy 课程、进度追踪
离线地图	ProtoMaps	可下载的区域地图，支持搜索和导航
数据工具	CyberChef	加密、编码、哈希、数据分析

安装方式

bash

curl -fsSL https://raw.githubusercontent.com/Crosstalk-Solutions/project-nomad/refs/heads/main/install/install_nomad.sh -o install_nomad.sh
sudo bash install_nomad.sh

深度视角

🤖 **GPT-5.4 架构师视角**

N.O.M.A.D. 的核心价值在于工具编排层的设计。Command Center 作为统一入口，将异构的工具通过 Docker 抽象为标准化服务单元。

Docker Compose 模板化：提供了可自定义的 management_compose.yaml
RAG 本地化：Ollama+Qdrant 是开源本地 RAG 的最佳实践
硬件评分体系：内置 Benchmark + 社区排行榜

🎯 **Opus 战略家视角**

N.O.M.A.D. 真正解决的，是一个数字时代的安全感问题。

三个宏观趋势的交汇：

隐私意识的觉醒
开源 AI 民主化
社区驱动的工具链

验证了一个重要观点：在 AI 时代，"编排"比"构建"更有价值。

对你工作流的实际价值

OpenClaw 工具链：

Ollama+Qdrant 本地 RAG 架构可直接移植
构建"本地知识库检索 Skill"

猫舍 AI 化：

日本灾害频发，可构建"猫舍应急知识包"
猫咪急救手册、常见疾病判断全部本地化存储

AI 创业：

"推荐硬件 + 一键部署 + 社区排行榜"三件套是产品化开源项目的成熟模板

3. learn-claude-code — 用 20 行代码拆解 Agent 本质

**GitHub**: https://github.com/shareAI-lab/learn-claude-code **核心数据**: 41k+ stars | 6.4k+ forks | 最新提交 11 天内

项目背景

2024–2025 年，"AI Agent" 成为最热门的词汇。整个行业陷入一种集体幻觉：只要把 LLM API 调用用流程图连起来，就叫"构建 Agent"。

这个项目直接打破幻觉。它的核心主张只有一句话：

**"The model is the agent. The code is the harness."**

20 行代码证明

python

def agent_loop(messages):
    while True:
        response = client.messages.create(
            model=MODEL, system=SYSTEM,
            messages=messages, tools=TOOLS,
        )
        messages.append({"role": "assistant", "content": response.content})
        if response.stop_reason != "tool_use":
            return
        results = []
        for block in response.content:
            if block.type == "tool_use":
                output = TOOL_HANDLERS[block.name](**block.input)
                results.append({"type": "tool_result", "tool_use_id": block.id, "content": output})
        messages.append({"role": "user", "content": results})

12 个 Session 渐进复杂度

Session	机制	核心 motto
s01	最小 loop + Bash	"One tool + one loop = an agent"
s04	Subagent 隔离	"Each subtask gets a clean context"
s07	文件型任务依赖图	"Break goals into tasks, persist to disk"
s12	Worktree 并行隔离	"Each task works in its own directory"

深度视角

🤖 **GPT-5.4 架构师视角**

这个项目的技术价值不在于任何单一机制，而在于它证明了复杂度应该随需求渐进增加。

s04 的 subagent 隔离：解决 context 污染问题
s07 的任务依赖图持久化：文件型设计，对轻量级状态机极其友好
可移植性极高：12 个 session 的设计模式是领域无关的

🎯 **Opus 战略家视角**

最有战略眼光的设计决策是 s05 的知识注入方式：通过 `tool_result` 而非 system prompt 注入知识。

System prompt 注入是无差别广播，tool_result 注入是按需拉取。

对你工作流的实际价值

OpenClaw 工具链：

s04 的 subagent 隔离 → 蜂群 Worker clean context 边界
s07 的任务依赖图 → 蜂群状态机文件型持久化方案

猫舍 AI 化：

猫舍摄像头 + 传感器 = tools
猫咪品种知识、喂养 SOP = knowledge

AI 创业：

先确认产品里哪部分是 harness，哪部分是 intelligence

4. page-agent — 让 AI 直接住在网页里的新范式

**GitHub**: https://github.com/alibaba/page-agent **核心数据**: 14k+ Stars | MIT License | 阿里开源 | v1.6.2

项目背景

SPA 状态感知缺失：React/Vue 组件的虚拟 DOM 变化，外部进程无法直接感知
用户会话无法继承：登录态、Cookie、LocalStorage 都要手动维护同步
部署成本高：需要额外部署浏览器环境，跨平台兼容性差

page-agent 换了一种思路：让 agent 住进网页里。它是一个纯前端 JavaScript 库，通过 CDN 一行引入或 npm 一行安装，agent 代码就运行在页面的上下文中。

核心设计

CDN 引入（最快体验）：

html

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.6.2/dist/iife/page-agent.demo.js" crossorigin="true"></script>

文本化 DOM 操作——这是 page-agent 最核心的设计决策：不截图，不走多模态模型。每一步操作前，库会把当前页面的 DOM 结构序列化成文本描述：

[Button] "登录" (id: login-btn, class: primary-btn)
[Input] 用户名 (type: text, placeholder: 请输入手机号)
[Input] 密码 (type: password)

三层扩展架构

层级	形态	能力边界
核心库	`page-agent` npm 包	单页面内自然语言驱动
Chrome Extension	浏览器扩展	跨 Tab、多页面协作
MCP Server	模型上下文协议服务	外部 agent 控制浏览器

深度视角

🤖 **GPT-5.4 架构师视角**

🎯 **Opus 战略家视角**

page-agent 真正解决的问题是**"浏览器自动化的 Inside-Out 翻转"**。传统路线是"agent 控制浏览器"，page-agent 的思路是"agent 住在浏览器里"。

这个翻转意义重大——它意味着 AI 交互层可以原生嵌入任何网页，不需要对方配合做任何后端改造。

对你工作流的实际价值

OpenClaw 工具链：

OpenClaw 的 Chrome Relay 是"外部控制"模式，可借鉴文本化 DOM 表示降低对多模态模型的依赖

猫舍 AI 化：

福楽キャッテリー官网可嵌入 page-agent，访客用自然语言查询猫咪信息
Notion 后台管理页面加 page-agent，用自然语言查询客户记录

AI 创业：

快速给产品加 AI 交互层的最佳选择之一

5. OpenMAIC — 用多智能体把任何主题变成「可演出的沉浸式课堂」

**GitHub**: https://github.com/THU-MAIC/OpenMAIC **核心数据**: 1.5k+ stars | v0.1.0 发布于 2026-03-26 | 清华团队

项目背景

技术架构

前端：Next.js 14 + React 19 + TypeScript + Tailwind
多智能体编排：LangGraph（状态机驱动）
状态管理：Zustand
支持模型：OpenAI / Anthropic / Google Gemini / DeepSeek / Grok

两阶段生成管道

用户输入（主题或文档）
    │
    ▼
Stage 1: Outline Agent
    │ 生成结构化课程大纲
    │ ✅ 大纲可人工审核、修改
    ▼
Stage 2: Scenario Agents（并行）
    │ 每个大纲节点 → 一个场景
    │ 幻灯片 / 测验 / 模拟实验 / PBL
    ▼
完整课堂

28+ 种 Action 系统

Action 类型	说明
`speech`	TTS 语音朗读
`whiteboard-draw`	SVG 白板绘图
`whiteboard-chart`	图表绘制
`spotlight`	聚光灯效果
`laser-pointer`	激光笔动画
`quiz-grade`	实时评分反馈

OpenClaw 集成

OpenMAIC 已发布 OpenClaw Skill（skills/openmaic/），支持从飞书、Slack、Discord、Telegram 等 20+ 消息平台直接生成课堂。

深度视角

🤖 **GPT-5.4 架构师视角**

从工程角度，OpenMAIC 最有价值的不是任何一个具体功能，而是两阶段管道 × LangGraph 状态机 × Action 系统的三层组合。

两阶段管道把「生成什么」和「怎么呈现」解耦，LangGraph 状态机把「谁来说话」和「说什么」解耦，Action 系统把「内容」和「表现」解耦。

🎯 **Opus 战略家视角**

OpenMAIC 解决的不只是「上课」问题，而是知识传播的体验经济升级。MOOC 让知识免费，OpenMAIC 让知识有温度。

最值得关注的是它对社会化学习（Social Learning）的复刻——AI 同学不是陪衬，是核心体验。

对你工作流的实际价值

OpenClaw 工具链：

OpenMAIC 与 OpenClaw 的集成已产品化。对ナツ说「帮我出一套 OpenClaw 新功能培训教材」→ 生成完整课堂 → 发链接

猫舍 AI 化：

客户教育：准家长想了解サイベリアン的喂养知识？输入关键词生成互动课程
员工 SOP 培训：新员工学习猫咪健康观察、急救流程，用 Quiz 模式边学边测

AI 创业：

输入文档生成课程 → 自动导出 PPTX → 分发给客户，链路极短

📚 综合学习总结

跨项目的核心教训

1. Agent 的本质是模型，代码只是 harness

2. 从"使用 AI"到"工程化 AI 使用"

这 5 个项目共同说明，社区已经走过了"AI 能做什么"的阶段，进入了**"如何系统化、可复现、可演进地使用 AI"**的阶段。

3. 编排 > 重写

project-nomad 和 everything-claude-code 都采用了"编排而非重写"的哲学。在 AI 时代，把最好的轮子用正确的方式组装起来，比重新造轮子更有价值。

4. 多 Agent 的价值在于角色差异

OpenMAIC 的 AI 教师和 AI 同学不是同一个 Agent 复制多份，而是有明确分工。设计多 Agent 系统时，先定义角色边界，再设计协作协议。

5. 离线能力是差异化方向

当所有工具都在拼云端性能时，离线+隐私的组合正在打开一个被低估的市场。日本灾害文化 + 隐私意识，让这个方向在本地市场尤其有潜力。

对 Will 的立即行动建议

优先级	行动	预期收益
P0	研究 learn-claude-code 的 s04/s07/s12	蜂群 v6.1 状态机设计参考
P0	借鉴 ECC 的 Instinct 机制	四实例跨经验自动同步
P1	评估 page-agent 文本化 DOM 方案	浏览器自动化成本降低
P1	验证 Ollama+Qdrant 本地 RAG	客户数据隐私保护
P2	跟踪 OpenMAIC 社区发展	多 Agent 编排模式验证

报告完成 | 分析基于 2026-03-28 公开信息 | GPT-5.4 架构师 × Opus 战略家双视角解读

加载中...

发表评论

0/1000