今日概览

今天的内容围绕 AI 工程化这一主线展开。得物与腾讯不约而同地从不同角度探讨了 AI Harness / Harness Engineering——如何在概率模型之上搭建确定性框架,让 AI 从"能写代码"进化为"按标准持续产出"。数字生命卡兹克分享了两个经过实战验证的 Vibe Coding Prompt 技巧。大淘宝技术展示了从 AE 到可运行代码的全链路动画方案。AI寒武纪则带来了 OpenRouter 评选的开源"F4"模型全景。五篇内容共同指向一个趋势:AI 的竞争正在从模型能力转向工程体系与工具链的深度构建。

今日重点

1. 从狂野代码到按目标生产:得物推荐 AI Harness 的工程化实践

得物推荐团队围绕 PDCA 全链路搭建 AI Harness 体系,将 AI 从单纯写代码升级为按目标、按边界、按质量标准持续生产。Plan 阶段用 T-PRD 将需求拆解为结构化契约;Do 阶段让 AI 开发零等待;Check 阶段引入 Axis 平台 7x24 自动评测推荐效果;Act 阶段将线上 Bad Case 捕获并沉淀为 Story,形成下一轮能力。

值得关注:

  • AI Harness 不是硬规则,而是将目标、边界、验证做进协作环境,让 AI 自然行动。
  • T-PRD 结构化契约减少理解歧义,让 AI 从一开始就清楚交付标准。
  • Bad Case 捕获→诊断→沉淀为 Story 的闭环,形成可持续的迭代飞轮。

这篇内容更值得关注的原因在于,它不是概念探讨而是经过实战验证的工程化方案,PDCA 闭环设计完整可推演,对任何让 AI 参与复杂业务产出的团队都有直接参考价值。

2. 开启 Harness Engineering 探索之旅

腾讯技术工程系统阐述了 Harness Engineering 的核心思想——设计模型如何工作而非如何回答。通过协议层定契约、管线层定阶段、纪律层堵漏、知识库提供长期记忆,在概率模型周围搭建确定性骨架。纪律层更包含 TDD、Debug、Verify、Review、Evaluate 五道防线,硬编码到管线中。

值得关注:

  • Harness Engineering 关注的是模型外的运行框架,包括执行环境、工具协调、状态管理、反馈注入。
  • AI Coding 的工程化本质是对不确定性的系统治理,确定性骨架是关键。
  • 知识库通过两级查找、索引互通、增量更新实现复利,支撑 AI 对业务的长期理解。

这篇内容更值得关注的原因在于,它与得物的 AI Harness 同题呼应但视角互补——得物偏实战落地,腾讯偏方法论框架,两者对比阅读能更全面理解 Harness 工程体系的全貌。

3. 分享 2 个 Vibe Coding 必备的超实用 Prompt

数字生命卡兹克分享了两个核心 Prompt 技巧。第一性原理 Prompt 强制 AI 跳出类比推理,从根本问题出发推导方案;对抗式审查 Prompt 通过模拟恶意用户或异常数据来发现隐藏的 BUG。作者用第一性原理修复了底层流量路由隐患,对抗式审查则发现了 OOM 死循环和未来时间污染等难以预料的漏洞。

值得关注:

  • 第一性原理 Prompt 能强制 AI 从本质思考问题,而非依赖训练数据中的类比模式。
  • 对抗式审查发现了 OOM 死循环、未来时间污染等常规测试难以覆盖的漏洞。
  • 两个技巧可泛化到文章审查、商业方案甚至人生决策中。

这篇内容更值得关注的原因在于,两个 Prompt 技巧极其实用且经过了实战检验,不仅是代码场景,还能用到方案审查和决策判断中,泛化性强。

4. AI 动画辅助实现(实践篇):从 AE 到可运行代码的全链路方案

大淘宝技术提出从 AE 直出代码的全链路方案,通过 AE 插件实时预览并转码为前端可用代码,再借助 AI 自动完成动画与业务 DOM 融合。单次动画开发耗时从 2-4 小时降至 15-30 分钟,还原度超过 95%。

值得关注:

  • 传统动画开发存在还原度差、沟通成本高、效率低三大问题,核心在于设计师和工程师交付物不同。
  • 方案核心是让设计师交付可运行代码,而非动画文件——问题前置到设计阶段发现。
  • AI 智能集成自动完成动画与业务 DOM 融合,无需人工拼接。

这篇内容更值得关注的原因在于,它提供了一个完整的动画效率提升方案,有明确的数据验证(效率提升 8 倍、还原度 >95%),对前端动画开发场景有直接量化参考。

5. 刚刚 OpenRouter 发布 2026 最值得关注的"开源 F4"

OpenRouter 梳理了截至 2026 年 6 月最值得关注的 4 个开源大模型:DeepSeek V4 Flash、GLM 5.2、MiniMax M3、Nemotron 3 Ultra。文章指出开源与闭源的智力差距已稳定在 3 到 6 个月,且闭源大厂未拉开明显距离。

值得关注:

  • DeepSeek V4 Flash 以极低价格(输出成本约 GPT-5.5 的 150 分之一)实现头部级代码能力。
  • GLM 5.2 在智力指数榜单上以 51 分领跑开源,任务规划与长代码能力接近闭源前沿。
  • MiniMax M3 是唯一原生支持图文视频理解的开源模型。
  • Nemotron 3 Ultra 背靠英伟达生态,提供完全开源的企业级部署技术栈。

这篇内容更值得关注的原因在于,它对当前开源模型格局做了及时且全面的梳理,信息量充足,对模型选型有明确的指导意义。

趋势观察

  1. Harness Engineering 正在成为 AI 工程化的核心命题。得物和腾讯不约而同在同一个时间点发布相关实践,说明行业共识正在形成——要让 AI 在复杂业务中稳定产出,需要在概率模型周围搭建确定性工程框架。
  2. Prompt Engineering 正在从"怎么写提示词"进化为"设计 AI 的工作方式"。第一性原理和对抗式审查等技巧表明,好的 Prompt 不是在教模型回答问题,而是在设计模型的思考路径。
  3. 开源模型的追赶速度远超预期。3-6 个月的差距意味着开源在智力层面已具备实用价值,成本优势又极其显著(150 分之一),模型选型的决策点正在从"谁更强"转向"谁的生态更适合自己的场景"。

延伸阅读