今日概览
今天的内容都指向一个方向:Agent 工程化正在从「怎么做」走向「怎么做好」。Skill 编写手册给出了技能包的标准答案,Harness 评测方案解决了「怎么知道做对了」的验证问题,得物技术的告警排查展示了真实生产落地的完整链路,Claude Code 团队的工作原则则从组织层面回答了「什么样的团队能做好 Agent」。四篇连起来,恰好拼出了 Agent 工程化的完整闭环:个体能力(Skill)→ 系统验证(Harness)→ 生产落地(Troubleshooter)→ 组织保障(团队原则)。
今日重点
1. 如何写好 Skill:一份终极实战经验手册
一份关于编写 AI 编程助手 Skill 的实战手册,核心目标是将团队知识和经验结构化封装为标准的技能包。文章详细介绍了 Skill 的构成:元数据层(Description、Author 等元信息)、正文层(Instructions、Examples 等可执行指令)和脚本层(运行时代码),以及渐进式加载机制如何控制 Token 成本。编写高质量 Skill 的关键在于精准的 Description(确保被正确触发)、明确的 Before/After 示例(展示输入输出变化)和 Few-Shot 示例(提供解题范式)。文章还给出了工程化评估方法,分为触发评估(召回率/准确率)和效果评估(完成率/质量分)。
值得关注:
- Skill 的本质是结构化的 Prompt Engineering,通过标准文件将领域知识转化为 AI 可执行指令。
- 复杂任务应拆分为主 Skill 和子 Skill,并设置检查点确保执行正确。
- 工程化评估包括触发评估和效果评估,可系统化优化 Skill 的准确率和召回率。
这篇内容更值得关注的原因在于,它覆盖了 Skill 编写的全流程——从构成拆解、编写原则到评估验证,每部分都有可复用的方法论。对我们日常写 Skill、优化 Skill 质量有直接的指导意义。
2. 基于顶级 Agent(Claude Code)的 Harness 工程搭建式业务 Agent 评测方案
提出用 Claude Code 作为 Harness 工程搭建者,系统性评测业务 Agent。核心思想是将评测逻辑从传统的 Python 脚本转化为 Agent 提示词(Prompt),使评测流程更灵活、可快速迭代。文章沉淀了 L1(通用基础)、L2(能力类型)、L3(专属指标)三层指标框架,新 Agent 可对照选用。评测集设计遵循小而精原则(20-55 条)、分布均衡、GT 可复核、版本化管理。这套方案将单个 Agent 的全流程评测从 1.5 周压缩至 1-2 天。
值得关注:
- 用 Claude Code 作为 Harness 搭建者,将评测逻辑从代码转为 Prompt,实现天级迭代。
- 沉淀三层指标框架,新 Agent 可对照选用,避免从零设计指标。
- 效率提升约 5-10 倍,单个 Agent 全流程从 1.5 周压缩至 1-2 天。
这篇内容更值得关注的原因在于,它解决了一个实际痛点——Agent 做出来了但不知道怎么系统性地测。把评测这个容易被忽视的环节变成了可复用的工程体系。
3. 用 LLM Agent 重构告警排查流程|得物技术
得物技术团队基于 LLM Agent 构建了 Troubleshooter 系统,自动完成线上告警的数据采集、根因分析和处置建议生成。系统采用分层架构,接入与排查解耦,使用 Spring AI Alibaba 框架实现 ReAct 推理循环。核心是 SupervisorAgent 编排四个排查工具(日志查询、指标查询、链路追踪、接口错误分析),支持动态策略组装。针对 LLM 幻觉问题,系统设计了格式校验、独立验收 Agent、多轮交叉验证和重试机制。上线后中位数排查耗时从 20 分钟降至 4.4 分钟,覆盖 11 个服务与 10+ 种告警类型。
值得关注:
- SupervisorAgent 编排四个排查工具,支持动态策略组装,架构设计清晰。
- 通过格式校验、独立验收 Agent、多轮交叉验证和重试机制控制 LLM 幻觉。
- 真实效果数据:中位数排查耗时从 20 分钟降至 4.4 分钟,验收首次通过率约 60%。
这篇内容更值得关注的原因在于,它提供了 LLM Agent 在运维领域落地的完整工程实现,从架构设计到幻觉控制到真实效果,每个环节都有可参考的工程细节。
4. 分享 Claude Code 团队内部的 5 条工作原则
Claude Code 工程总监 Fiona Fung 分享了 AI 原生团队的五条工作原则。核心是自动化一切重复任务——团队遇到重复工作会条件反射地询问能否自动化,已形成肌肉记忆。规划从冗长的设计文档转向 JIT(即时)规划,原型先行、快速迭代。代码审查采用「信任但验证」原则,AI 处理风格检查等低阶工作,人类聚焦在合规与品控上。招聘看重创造力与判断力——品味稀缺而打字不稀缺。团队扁平化,管理者从一线干活做起,主动淘汰无效流程。
值得关注:
- 自动化已形成团队肌肉记忆,遇到重复工作条件反射地思考能否自动化。
- 规划从冗长的设计文档转向 JIT 规划,原型先行、快速迭代。
- 招聘的核心标准是创造力与判断力——品味稀缺而打字不稀缺。
这篇内容更值得关注的原因在于,它不是泛泛而谈的团队管理理论,而是一个正在运行 AI 原生团队的真实工作原则。每一条都可以直接对照自己的团队实践来反思差距。
趋势观察
- Agent 工程化正在形成从 Skill 编写到评测、部署、团队管理的完整能力栈。今天的四篇文章恰好拼出了这个闭环的四个关键环节。
- AI 在运维领域的落地正在加速。得物技术的 Troubleshooter 是一个典型的「低风险、高收益」切入点——告警排查本身就是信息密集、流程固定的场景,天然适合 LLM Agent 介入。
- 行业对 Agent 质量的认识正在从「能跑就行」转向「系统性验证」。Harness 评测方案、Skill 工程化评估的出现说明,Agent 质量保障正在从手工验收走向工程化体系。