今日概览
今天的候选内容在 Agent 工程化落地的方向上进一步深入:阿里云分享的 WebTerminal 改 CLI 实践、飞书妙搭的企业级记忆升级、得物 AICon 的 AI Harness 与排序大模型分享,都在回答同一个问题——Agent 如何真正在真实的工程环境中稳定工作。Claude Opus 4.8 的代码级诚实度提升和动态工作流,也代表着模型侧开始直接回应工程化挑战。腾讯技术工程从源码层面对比 OpenClaw 与 Hermes 两大框架的架构取舍,则提供了一个难得的宏观视角。
今日重点
1. 全是 Web 没 CLI 怎么行:一次把 StarAgent WebTerminal 改造成
云上服务大多通过 WebTerminal 操作,但 Agent 本质上更擅长 CLI——阿里云这组实践把 WebTerminal 改造为纯终端工具 wt,为 Agent 提供了可远程调用的稳定操作接口。通过 wsh/wcp 实现黑屏模式操作,命令执行、文件传输和交互式调试全部走 API,不依赖浏览器 DOM 自动化。每次 wt run 输出 raw、plain、snapshot 三份证据,方便 Agent 解析和复盘。
值得关注:
- 授权与执行解耦:场景逻辑由 Skill 描述,Agent 动态决策。
wt interact启动 HTTP 控制面,支持多轮交互调试,保持远端状态。- 文件传输走 API 而非 DOM 自动化,支持分块下载和校验。
这篇内容更值得关注的原因在于,它不只是一个终端工具改造,而是为 Agent 构建了一套"可执行的操作接口"——Skill 是规约,wt 是执行通道,Agent 是决策者。这套分层设计在运维场景下非常有推广价值。
2. 让 Agent 真正"记得住":飞书妙搭 OpenClaw × 火山 Mem0 的企业级记忆升级
飞书妙搭团队将 OpenClaw 的长期记忆从本地文件迁移到火山 Mem0 云端方案,实现了跨设备实时同步和弹性扩展。系统主动从对话中抽取关键事实,经三层智能压缩后存储,在 Locomo 基准下记忆问答准确率最高提升 86%,Token 消耗节省最高 96%。针对业务场景优化的模拟 QA 评测集显示准确性高达 97.6%。
值得关注:
- 火山 Mem0 以插件形式零侵入接入,只需一行命令加配置密钥。
- 记忆从本地迁移至云端,支持 Serverless 弹性扩展。
- 实际评测数据完整,准确性与成本节约数字详实可用。
这篇内容更值得关注的原因在于,它展示了一条从"能记住"到"记得准且低成本"的工程化路径,对企业级 Agent 产品的记忆模块选型提供了具体的参考框架。
3. 用 Codex 构建响应式前端设计:丢张截图它直接全自动搞定
本文展示了一条 AI 前端工作流:将设计截图丢给 Codex,自动生成响应式 HTML/CSS 代码,再通过 Playwright 技能让 Codex 在真实浏览器中对比截图自动纠错。输入越丰富——桌面端、移动端、悬停状态等多状态参考图——输出越精准。对于已有项目,Codex 会自动复用现有设计系统和组件规范。
值得关注:
- 截图→代码→浏览器验证的全自动闭环,减少人工检查。
- 多状态参考图输入可显著提升生成效果。
- 在已有项目中会自动适配现有设计系统。
这篇内容更值得关注的原因在于,它不只是"截图转代码"的演示,而是展示了 AI 通过工具循环自我纠错的能力,代表了前端开发工作流的范式转变方向。
4. 得物在 AICon 关于大模型与 Agent 技术实践分享
得物三位技术专家在 AICon 2026 带来了多场 Agentic 时代的工程实践分享。推荐系统 AI Harness 通过 7 阶段护栏让 AI 生成的黑盒代码安全上线;智能客服 Agent 通过 RL 决策训练和人类经验对齐达到 Top5 客服水平;电商多场景排序大模型采用 MoE-Transformer 架构,实现千万到十亿参数的平滑扩展。
值得关注:
- AI Harness 的 7 阶段安全护栏设计,解决黑盒代码上线风险。
- 智能客服 Agent 通过 RL 与人类经验对齐的训练思路。
- MoE-Transformer 架构实现大参数规模下的平滑扩展。
这篇内容更值得关注的原因在于,得物是目前少数在多个业务线同时落地 Agent 和 AI 大模型的大厂,他们的 Harness 工程和排序模型架构设计对其他公司有直接的工程参考价值。
5. OpenClaw 与 Hermes:源码里的 AI Agent 架构知识大复盘
这是一篇从源码层面对比 OpenClaw 和 Hermes 两个主流 Agent 框架架构设计的深度文章。OpenClaw 采用微内核架构,强调边界与实现分离,能力通过插件扩展;Hermes 采用单体架构,注重工具密度与技能自创建。两个框架都在记忆系统上投入巨大:OpenClaw 有 Dreaming 三阶段整理,Hermes 有 Session Search 跨会话搜索。文章还延伸讨论了上下文重置、对抗性评估等 Harness Engineering 前沿实践。
值得关注:
- OpenClaw 微内核 vs Hermes 单体:两种工程哲学的系统级对比。
- 记忆系统的不同设计取舍:Dreaming 三阶段整理 vs Session Search。
- Auth Profile 的多级凭证降级与健康管理设计。
这篇内容更值得关注的原因在于,它提供了 Agent 框架底层架构的工程思维复盘——不是 API 层面的简单对比,而是去理解开源项目背后的工程取舍,对做 Agent 框架设计和选型的人有直接帮助。
趋势观察
- Agent 工具链的"去网页化":阿里云的 WebTerminal 改 CLI 实践、Codex 的自循环纠错能力,都指向同一个方向——Agent 正在从"看网页"转向"接入底层 API",这比能力提升更重要的是可靠性。
- 记忆从概念走向工程产品:飞书妙搭的 Mem0 案例把记忆从"有没有"变成了"好不好"——准确率 97.6%、Token 节省 96%,产品化指标已经非常清晰。
- 开源 Agent 框架的哲学分歧在加深:OpenClaw 的微内核与 Hermes 的单体不是谁更好的问题,而是服务不同用户场景——平台型企业 vs 个人开发者,这个分化本身值得持续观察。
延伸阅读
- 全是 Web 没 CLI 怎么行|阿里云开发者
- 让 Agent 真正"记得住":飞书妙搭 OpenClaw × 火山 Mem0|字节跳动技术团队
- 用 Codex 构建响应式前端设计|AI寒武纪
- 得物技术在 AICon 关于大模型与 Agent 技术实践分享|得物技术
- OpenClaw 与 Hermes:源码里的 AI Agent 架构知识大复盘|腾讯技术工程