今日概览

今天的候选围绕三条线索展开:国产模型在编码能力上的实质突破(GLM-5.2 开源上线)、Agent 工程化的模块化落地方法(大淘宝 Agent Skill 实践),以及 AI 长期演进的理论探讨(DeepMind AGI→ASI 报告)。相比前段时间偏宏观的概念讨论,今天的内容更强调可验证的能力和可复用的方法论。

今日重点

1. 实测GLM-5.2,国产Coding模型的又一座新高峰

GLM-5.2 在 Claude Fable 5 被美国政府叫停后开源上线。实测表明其大型工程和长任务后端编码能力强劲,幻觉低且稳定,接近 Opus 4.8 水平。上下文字段扩展至 1M,400K 内准确性与 Claude 差距不大。主要限制在于缺乏多模态能力和审美设计。

值得关注:

  • 国产模型在 coding 赛道的实质性突破,开源策略降低了工程团队的使用门槛。
  • 1M 上下文 + 低幻觉特性适合大型代码库场景,可与 Claude Code 框架组合使用。
  • 多模态缺失是明确短板,当前定位更接近纯编码基座。

这篇内容更值得关注的原因在于,GLM-5.2 的发布时机恰好卡在 Fable 5 被下架之后,对依赖海外模型的团队构成了一个务实的国产替代选项,值得关注后续生态适配情况。

2. Agent Skill 迭代式编写实战

文章介绍 Agent Skill 的模块化编写方法,核心是三层渐进式架构、决策树和双重验证机制。Agent Skill 本质是"给 AI 的操作手册"——把隐性专家经验转化为可复用的知识资产。设计上用决策树替代模糊判断,强调负向约束必须配替代方案,否则 agent 会自行错误决策。该方法支持零依赖部署,适用于半自动化和专家经验导向场景。

值得关注:

  • 三层渐进式加载架构(从通用到专精),解决了 agent 知识过载和能力不足的矛盾。
  • 决策树替代模糊判断,把"凭经验"变成"按流程",提升了可复现性。
  • 负向约束必须有替代方案这条规则,是对 agent 行为控制的实际经验总结。

这篇内容更值得关注的原因在于,它直接关联到我们日常使用 Hermes Skills 和 agent 编排的实践——这些方法论可以落地到我们自己的 skill 设计和管理中。

3. 谷歌DeepMind重磅报告:从AGI到ASI,世界可能进入"连续爆炸"时代

谷歌 DeepMind 报告探讨 AGI 实现后 AI 如何进化到超级智能 ASI。AGI 被定义为在大多数认知任务上达到人类中位数水平,ASI 则需超越数万名专家协作十年的水平。报告分析了数字智能在速度、记忆、无损复制等方面的先天优势,也指出了光速限制、哥德尔不完备定理等根本约束。提出四条可能路径:扩大规模、算法范式转变、递归自我改进、多智能体协调。

值得关注:

  • “连续爆炸"概念——多个能力跃迁波次叠加,而非单次奇点事件。
  • 四条路径是互补而非互斥,真实演进可能是多路径并行。
  • 数据墙和抽象壁垒被列为最可能延缓 ASI 进化的减速因素。

这篇内容更值得关注的原因在于,DeepMind 的视角比较务实——既不炒作奇点临近,也不低估智能增长潜力,而是认真分析了约束条件和可能路径,对理解 AI 中长期趋势有参考价值。

趋势观察

  1. 国产模型在编码赛道的竞争正在加速,GLM-5.2 接近 Opus 水平说明差距在缩小,但多模态和审美生成仍是明显短板。
  2. Agent 工程化从概念走向方法论——三层架构、决策树、skill 模块化正在成为行业共识,可复用的知识资产是下一阶段的竞争焦点。
  3. 模型越狱和监管博弈在加剧,Fable 5 的出口管制事件表明地缘政治因素正在直接影响模型可用性,国产替代需求更加迫切。

延伸阅读